運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#64(2021/4/18~4/23)

この記事は2021/4/18~2021/4/23発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

DEVOPS WEEKLY ISSUE #538 April 18th, 2021
SRE Weekly Issue #266 April 18th, 2021
KubeWeekly #260 April 23rd, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #538 April 18th, 2021

News


I love SQLite. This post does a good job of explaining why it’s a unique and powerful tool for lots of different use cases.
  • タイトルは「SQLite is not a toy database」。
  • SQLiteを試すきっかけになることを願ってSQLiteの良さを紹介している。
A post on the importance and differences between platform engineering and site reliability engineering.
  • タイトルは「Platform engineering vs. site reliability engineering (SRE): here’s what you need to know」。
  • タイトルの「vs」で想像されるような対立や競争の構造ではなく、上記のようにそれぞれの重要性や違いを解説し、以下の言葉で結んでいる。
    • At the end of the day, both teams are clearly important in helping engineering organizations build cloud-native software as productive and reliable as possible.
    • You can really say that most of the time product engineering teams ride on the shoulders of both the platform and site reliability engineering teams.
    • But, regardless of the size, scale, and complexity of your organization there will always be the need for an individual or team to focus on reducing toil, shipping faster, and improving reliability.
A quick how-to post on using cosign to cryptographically sign container images.
  • タイトルは「Trying out Cosign」。
  • タイトル通り、試しにCosign projectでraw imageの署名プロセスをチェックしている。
Vault supports different backends for storage, but what are the performance characteristics of using Postgres, Consul or GCS? This post answers the question and shows the working.
  • タイトルは「How to compare the performance of different HashiCorp Vault backends」。
  • Vaultのパフォーマンスには、ネットワーク遅延、バックエンドタイプ、Vaultクラスター内のノード数、負荷など、多くのパラメーターが影響し、パラメーターを1つでも変更すると、結果は大幅に異なる。この記事では下記のように、これらの要因のごく一部を元に解説している。
    • — the “basic” (i.e., non-optimized) performance of various backends.
A look at using Telepresence for local development and debugging of applications running on Kubernetes.
  • タイトルは「Using Telepresence 2 for Kubernetes debugging and local development」。
  • 最近リリースされたTelepresence 2を、他のKubernetsのローカル開発ツールとの比較を交えながら解説している。
A fast inner loop for developers testing out new ideas is a powerful tool, and one approach is a strong opinion about integrating frameworks, local tools and cloud services. A nice example with Spring Boot and Google Cloud Run.
  • タイトルは「Exploring a fast inner dev loop for Spring Boot apps targeting Google Cloud Run」。
  • タイトルと、上記のEditorの記載している内容を操作画面を添えながら丁寧に解説している。
A nice walkthrough of using cloud native buildpacks to solve operational problems with building container images.
  • タイトルは「How To: On Using Cloud-Native BuildPacks for Operational Efficiency」。
  • タイトルに沿って、CNB(Cloud Native Buildpacks)がアプリコンテナをビルドする際の運用ガバナンスに重点を置いていることを中心に解説している。

Events

CONFLANG, a workshop on configuration languages, is coming up as part of SPLASH, on the 17th-22nd of October. The CFP is open now and looking for talks on New languages for configuration, Specification learning and mining for configurations, Infrastructure and configuration code maintenance and evolution and more.
  • 上記の通り、イベントのCFPの募集が開始。期限は 2021/08/06まで。

Tools

An experimental CLI tool for using containerd in a similar way to Docker. Not intended as a replacement as much as a place for some interesting experiments with cutting edge functionality.
  • 「nerdctl」のGitHubページ。以前も紹介されていた気がしますが、注目が高まってきたためか、再登場しています。
OPAL is an administration layer for Open Policy Agent (OPA), detecting changes to both policy and policy data in realtime and pushing live updates to your agents.
  • ポリシーとポリシーデータの両方の変更をリアルタイムで検出し、ライブ更新をエージェントにプッシュするツール「OPAL(Open-Policy Administration Layer)」のWebページ。
  • GitHubページはこちら
An example of solving a problem with end-to-end automation. Using CDK to provision an AWS Config rule and Lambda function that detects and then removes an public SSH access.
  • 「SSH-Restricted」のGitHubページ。
  • SSHアクセスがパブリックの場合、AWSLambdaを介した自動修復を使用してSSHコンプライアンスルールをデプロイする。
  • SSH-Auto-Restrictedは、AWSConfigルールを使用してセキュリティグループの着信SSHトラフィック設定をチェックする。

SRE Weekly Issue #266 April 18th, 2021

Articles

Airplane takes off a metric ton heavier than expected after computer error weighs adults as children

This one was brought to my attention by Dr. Richard Cook, who also pointed me to the AAIB incident report.

Dr. Cook went on to share these insights with me, which I’ve copied here with permission:

Note:
* the subtle interactions allowed the manual correction to be lost during the interval between recognizing the software problem and having the corrected software functionally ‘catch’ the Ms/Miss title mixup;
* the incident is attributed to “a simple flaw in the programming of the IT system” rather than failure of the workarounds that were put in place after the problem was recognized;
the report is careful to demonstrate that the flaws in the system made only a slight difference to the flight parameters;
* the report does not describe any IT process changes whatsoever!
The report has the effect of making the incident appear to be an unfortunate series of occurrences rather than being emblematic of the way that these sorts of processes are vulnerable.

  • 航空機の「serious incident」を取り上げている。女性の乗客で「Miss」のタイトルが使われていた箇所で、システムのミスで子供の重量で計算してしまい、想定される重量に1,244 kgの差分が出てしまっていた。 この重量は、離陸に使用する推進力の計算の元になっているが、幸い飛行機の安全な運行に影響は無かった。
Catchpoint Announces Virtual SRE Community Event on June 10

Last year’s SRE From Home event was awesome, and this year’s iteration looks to be just as great.

Catchpoint

  • タイトル通り、2021/06/10開催予定のバーチャルイベント「SRE FROM ANYWHERE」の案内。
  • 見逃した場合は、登録しておくとセッション動画をメールで送ってくれる。私は早速、登録を実施済み。
The Case of the Connection Timeout

This is fun! Try your hand at troubleshooting a connection issue in this game-ified role-play scenario.

BONUS CONTENT: Read about the author’s motivations, design decisions, and plans here.

Julia Evans

  • タイトル通り、「Connection Timeout」が発生した場合のトラブルシュートをWeb UI上で行っていくもの。Editorの言うように、よくあるケースで数分で楽しみながら実行できる内容で良い。
The Five Pillars of Resilience Engineering

Do we need to have some kind of Pillars Registry? Note, these are more like pillars of high availability than resilience engineering.

Hector Aguilar — Okta

  • レジリエンスエンジニアリングを始めるのに以下の5つの柱となるポイントを解説している。
    1. Monitoring and Visibility
    2. A “Redundancy is King” Attitude
    3. A “No Mysteries” Mindset
    4. Strong Automation
    5. The Right Team
Incident analysis as guerrilla case study research

I love this idea that we’re trying to get deep incident analysis done even though that may not be the actual goal of the organization.

As LFI analysts, we’re exploiting this desire for closure to justify spending time examining how work is really done inside of the system.

Lorin Hochstein

  • 筆者はLFI(learning from incidents in software)を「a guerrilla case study」と呼び、システム内で実際に作業がどのように行われているかを調べることに時間を費やすことを正当化している、と問題点を指摘し、「インシデント分析の目標が可能な限り多くを学ぶことであることを明確にすべきである」と解説している。
Having On-call Nightmares? Runbooks can Help you Wake Up.

This is well worth a read if only for the on-call scenario at the start. Yup, been there. We miss you, Harry.

Harry Hull — Blameless

  • タイトルに沿って、Runbookドキュメントを作成し、全てのアラートの説明にRunbookをリンクしておくことにより、オンコールチームがサポートされていると感じられるようにしておくことなどを中心に 解説している。
Platform engineering vs. site reliability engineering (SRE): here’s what you need to know

What’s the difference? Click through to learn about the distinction they’re drawing.

Amir Kazemi — effx

  • 上記のDEVOPS WEEKLY ISSUE #538で取り上げているため、割愛。
We Don’t Get Bitter, We Get Better

The New York Times’s Operations Engineering group developed an Operational Maturity Assessment and uses it to have collaborative conversations with teams about their systems.

Authro: The NYT Open Team — New York Times

  • ニューヨークタイムズのテクノロジーチームにSREの基準と考え方をどのようにもたらしたかを解説している。「Operational Maturity Model」を利用し、可視化していることなど。

Outages

上記各社の障害情報


KubeWeekly #260 April 23rd, 2021

The Headlines

Editor’s pick of the highlights from the past week.

Q&A with Jasmine James, our newest KubeCon + CloudNativeCon co-chair!

CNCF

We are very excited to introduce our newest KubeCon + Cloud NativeCon co-chair, Jasmine James! Jasmine is an Engineering Manager within the Engineering Effectiveness organization at Twitter and is specifically focused on the internal developer experience. Developer experience has always been a passion for Jasmine along with diversity in the open source community and helping others get started in open source.

Jasmine will officially begin her co-chair duties at KubeCon + CloudNativeCon North America 2021 but will be working closely with our current co-chairs, Constance Caramanolis and Stephen Augustus, to make KubeCon + CloudNativeCon EU Virtual 2021 a huge success.

Don’t forget that KubeCon + CloudNativeCon Europe is happening on May 4-7, 2021! Be sure to reserve your spot today.

  • タイトル通り、KubeCon + CloudNativeConの新しいco-chairをQ&Aを通して紹介しているCNCFの記事。公式にはKubeCon + CloudNativeCon North America 2021から任にあたるが、KubeCon + CloudNativeCon EU Virtual 2021 の成功のために現在のco-chairと連携している。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Automate & orchestrate databases & other stateful workloads with Kubernetes

Alex Chircop, StorageOS

  • 「Kubernetesのデータベースのようなステートフルなワークロードをどのように処理するか」という疑問に答える約1時間のセッション。
Managing add-ons across clusters

Anubhav Sharma, Nirmata

  • GitOpsワークフローを使用してクラスター全体のアドオンサービスのライフサイクルを管理するためのベストプラクティスと、それをクラスターに適用する方法をデモで解説している。
What is cloud native and why should I care?
  • 約40分でCloudNativeの世界をわかりやすく架空の会社でのストーリー仕立てで具体的にやることや、参考になる資料を交えて説明している。
Journey from on prem to the cloud with Kubernetes

Jamie Dobson, Container Solutions

  • Broadridge社のDevOps COEチームのオンプレミスのデータセンターからクラウドにDevOpsツールを移行する過程での取り組み、特にCloudbees CI(Jenkins)をKubernetesに移動することを中心に解説している。


The Technical

Tutorials, tools, and more that take you on a deep dive into the code. Bob DeRosa, Broadbridge

Introducing kube-burner, A tool to Burn Down Kubernetes and OpenShift

Raul Sevilla Canavate, Red Hat

  • 基本的にk8sリソースの作成と削除を調整することにより、さまざまなOpenShiftコンポーネントにストレスをかけるように設計されたツール「Kube-burner」を紹介している。
Three Tenancy Models For Kubernetes

Ryan Bezdicek (Medtronic), Jim Bugwadia (Nirmata), Tasha Drew (VMware), Fei Guo (Alibaba), Adrian Ludwin (Google)

  • 「Kubernetes Multi-Tenancy Working Group」のメンバーが、3つの一般的なテナンシーモデルについて説明し、関連するワーキンググループプロジェクトを紹介している。
Upcoming networking changes in Istio 1.10

John Howard, Google

  • タイトル通り、Istio 1.10でのネットワークの変更点として、既存の挙動、今後の挙動、影響、対応方法などを図を交えて解説している。
Enforcing Policy as Code using OPA and Gatekeeper in Kubernetes

Pavan Gunda, Elastisys

  • タイトル通り、Kubernetesクラスターにポリシーを適用できるように「OPA(Open PolicyAgent)」/GatekeeperをKubernetesアドミッションWebhookとして設定するために必要なすべてのことを解説している。
Tracing in Grafana with Tempo and Jaeger

Ruturaj Kadikar, InfraCloud Technologies

  • 例としてPrometheus、Grafana Loki、Jaeger、およびGrafana Tempoを、Grafanaでそれぞれメトリック、ログ、およびトレースを監視するためのデータソースとして使用し、ログにトレースを導入して簡単に視覚化する方法を解説している。
Hello kubectl cost: monitoring Kubernetes spend from the command line!

Kubecost

  • Kubecostチームによる新たなkubectlプラグインのコスト可視化用のCLIツール「kubectl cost」の紹介。
Is vanilla Kubernetes really too heavy for the Raspberry Pi?

Spencer Smith, Talos Systems

  • タイトルの疑問を数週間抱えた筆者がテストを行い、結果と考察を共有している。
Horizontal Pod Autoscaler in Kubernetes

Around25

  • KubernetesでのHorizo​​ntalPod Autoscaler(HPA)の概念と実装について解説している。導入として、オートスケーリング、オートスケーリングが必要な理由、およびKubernetesで使用できる自動スケーリングの種類について解説している。
How to connect to your damn Kubernetes pod

Eric Semeniuc, Salesforce

  • タイトル通り、以下4つのKubernetesのPodへの接続方法を紹介している。
    • Option 1 - Kubernetes Port Forwarding (Easiest)
    • Option 2 - Kubernetes Proxy
    • Option 3 - Minikube ssh
    • Option 4 - NodePort

What's new in Kubernetes 1.21

Kubernetes 1.21: CronJob Reaches GA

Alay Patel and Maciej Szulik, Red Hat

  • CronJobリソースがKubernets v1.21でGAに。今までそうでは無かったのが意外。
  • 以下3つのポイントを中心に解説している。
    1. The driving forces behind this new development
    2. A brief description of controller design for core Kubernetes
    3. What you will gain from this improved controller
Introducing Suspended Jobs

Adhityaa Chandrasekar, Google

  • こちらはアルファ版機能として追加されたJobのSuspend機能の紹介。
  • 以下3つのポイントで解説している。
    1. API changes
    2. Where is this useful?
    3. References and next steps
Local Storage: Storage capacity tracking, distributed provisioning and generic ephemeral volumes hit Beta

Patrick Ohly, Intel

  • こちらはベータ版に昇格した「generic ephemeral volumes」と「storage capacity tracking」機能の紹介。
  • CSI外部プロビジョニング機能での分散プロビジョニングサポートとともに、ノード上でローカルにストレージを管理するCSIドライバーの開発とデプロイが簡単になる。
  • このようなドライバーが以前にどのように機能したか、これらの機能を使用してドライバーを単純化する方法を以下4つのポイントで解説している。
    1. Problems we are solving
    2. Enhancements in Kubernetes 1.21
    3. Known limitations
    4. Enabling the new features and next steps
Volume health monitoring Alpha update

Xing Yang, VMware

  • 1.19で最初に導入されたアルファ機能「CSI Volume Health Monitoring 」が大きな変更点があり、紹介している。外部エージェントからKubeletに移動するなどの更新点を以下のポイントで解説している。
    1. Why add Volume Health Monitoring to Kubernetes?
    2. What is Volume Health Monitoring?
    3. How do I use Volume Health on my Kubernetes Cluster?
    4. As a storage vendor, how do I add support for volume health to my CSI driver?
    5. What’s next?
    6. How can I learn more?
    7. How do I get involved?
Introducing Indexed Jobs

Aldo Culquicondor, Google

  • こちらはアルファ版機能として追加されたcompletion modeを利用したIndex機能の紹介。
  • マニフェストのcompletionMode: IndexedをJobのspecの配下にを設定することにより環境変数JOB_COMPLETION_INDEXが利用でき、Index付きのJobが作成できる。
Graceful node shutdown goes Beta

David Porter (Google), Murnal Patel (Red Hat), and Tim Bannister (The Scale Factory)

  • こちらはベータ版に昇格した「Graceful node shutdown」機能の紹介。
  • 予期しないシャットダウン状況のいくつかをより細かく制御できるようになった。


The editorial

Service level objectives and Nobl9, with Brian Singer and Kit Merker

Craig Box, Kubernetes Podcast from Google

  • LinuxFoundationのオープンソースプロジェクトである「SODA Foundation」のデータ管理とストレージに焦点を当てたサーベイ。日本語、中文、英語での回答が可能。
kube-state-metrics goes v2.0

Lili Cosic (Red Hat), Frederic Branczyk (Polar Signals), Manuel Rüger (Sony Interactive Entertainment), Tariq Ibrahim (Salesforce)

  • kube-state-metrics」プロジェクトのv2の紹介をしている。namespaceなどのフラグが変わっているので、利用している場合は要注意。
New Redis Enterprise for Anthos and GKE

Nima Badley, Google Cloud

  • RedisConf 2021で発表されたGoogle Cloud Marketplaceのprivate previewの「Redis Enterprise for Anthos and Google Kubernetes Engine (GKE)」を紹介している。両社のこれまでのGoogle Cloud Next 2019からのコラボの流れに触れている。
Released: Docker desktop for Mac (Apple Silicon)

Dieu Cau, Docker

  • タイトル通り、Docker Desktop for Mac [Apple Silicon]のGAの案内。
Pulumi launches version 3.0 of its infrastructure-as-code platform

Frederic Lardinois, TechCrunch

  • タイトル通り、Pulumi v 3.0の案内。
  • 新しくインフラプロバイダーとしてのGoogle Cloudのサポート、Pulumiを他のアプリから呼び出せるライブラリーに変換する新しいAutomation APIなどが含まれている。
3 keys to multicloud success you’ll find in Anthos 1.7

Jeff Reed, Google Cloud

  • タイトル通り、以下の3つのキーポイントを解説し、顧客事例もあわせて紹介している。
    1. Create an anchor in the cloud
    2. Create a consistent experience for operators
    3. Establish a secure, familiar deployment target for developers
The Level Up Hour (E32): Kubernetes past & future

Chris Wright, Langdon White, and Chris Short, Red Hat

  • RedHatのCTOであるChris Wright氏がKubernetesの理論上考えられる未来について、5G、エッジなどのキーワードを交えて語っている。
Should I build my own internal platform?

João Alves

  • タイトルに沿って、以下のポイントをこれまでの時系列で解説している。
    • The cloud, microservices, and DevOps
    • The first attempt: shared modules
    • Platforms as a Service: a multiplier effect
    • Is Kubernetes my PaaS?
    • Should I build my own Internal Platform?
Introducing the CNCF End User Lounge – exclusive live streams for end user organizations

Katie Gamanji, CNCF

  • エンドユーザーがクラウドネイティブエコシステムをどのようにナビゲートするかを紹介する独占的なライブストリームを提供するプログラムである「CNCF End User Lounge」を紹介している。以下の目的で参加すると良い。
    1. Share your cloud native story!
    2. Enhance the visibility of your brand and attract the top talent!
    3. Connect with peers in the industry!
The Insider's Guide to KubeCon + CloudNativeCon EU 2021 – The New Stack

Joab Jackson, The New Stack

  • タイトルのPodcastの概要紹介記事。
  • WebページにPodcastの該当のエピソードが埋め込まれている。

Upcoming CNCF Online Programs

Cloud Native Live
  • 4/28/21: Migrating from Flux v1 to Flux v2 presented by Leigh Capili, Weaveworks - RSVP
On-demand
  • 4/22/2021: Reduce the carbon footprint of your cloud-native workloads now presented by Eric Riedel & Jean-Jacques Chanut, ITRenew & Andy Randall, Kinvolk - RSVP
  • 4/22/2021: Time to talk about DataMesh presented by Fred Chian, Brobridge Co. Ltd. - RSVP
  • 4/22/2021: Using machine learning on K8s logs to find root cause faster presented by Larry Lancaster & Gavin Cohen, Zebrium & Aran Khanna, Reserved.ai - RSVP
YouTube playlist submissions

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara