SRE / DevOps / Kubernetes Weekly Reportまとめ#60(2021/3/21~3/26)
- この記事は2021/3/21~2021/3/26発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
- なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- The English Version of this blog is here.
- DEVOPS WEEKLY ISSUE #534 March 21st, 2021
- News
- The State of Devops report is in its 10th year. This year’s survey is now open, focusing this year on how teams and work are organized, interaction between teams, feedback loops, self-service and more.
- A post arguing for software bill of materials standards and implementations. Lots of context to the problem and to how similar risks are mitigated in other areas.
- gRPC is a general-purpose RPC layer. Addressing a range of different types of services means it’s configurable. And configuration is often a source of errors. This post explains why, along with some examples to learn from.
- A 3 part series covering a wide range of production troubleshooting stories; performance problems, database migration, proxies, caching and more.
- Are you tired of bumping the image tag manually every time you make a change in Kubernetes? This post covers how to automate deployments and updates using Argo CD.
- An interesting interview on the importance and challenges of application security.
- Standards benefit from multiple implementations. This post on runj describes a new OCI runtime implementation targeting FreeBSD and it’s Jails capability.
- News
- SRE Weekly Issue #262 March 21st, 2021
- Articles
- The Prerequisites for Chaos Engineering
- Managing On-Call in a Pandemic
- Being Just Reliable Enough
- Google debunks Russian claims that fire was connected to service outage
- How to Analyze Contributing Factors Blamelessly
- Rethinking site capacity projections with Capacity Analyzer
- Testing in Production for Safety and Sanity
- How we found and fixed a rare race condition in our session handling
- Outages
- Articles
- KubeWeekly #256 March 26th, 2021
- The Headlines
- The Technical
- ICYMI: CNCF online programs this week
- Automating SRE from “Hello World” to Enterprise Scale with Keptn
- Flux is Incubating + the road ahead
- Securing access to your Kubernetes applications – Using Dex for authentication and role based access control (RBAC) for authorization
- Scaling monitoring at Databricks from Prometheus to M3
- Why your APIs should fly first class
- Cloud Native Live: Crossplane – GitOps-based Infrastructure as Code through Kubernetes API
- The Editorial
- Replicated, with Grant Miller
- 10 predictions for cloud native in 2021 – Keynote, The DevOps Conference
- Take the CNCF Kubernetes at the Edge microsurvey
- Take the FinOps (CFM) for Kubernetes CNCF microsurvey
- Take the CNCF Diversity microsurvey
- Cloud Native Security Day: Protecting our cloud native world, one container at a time
- Upcoming CNCF Online Programs
この記事は2021/3/21~2021/3/26発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- 誰かの情報源や検索工数削減などになれば幸いです。
The English Version of this blog is here.
DEVOPS WEEKLY ISSUE #534 March 21st, 2021
SRE Weekly Issue #262 March 21st, 2021
KubeWeekly #256 March 26th, 2021
- この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
- 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
- 情報量が多いので文字とリンクだけに絞っております。
- 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。
DEVOPS WEEKLY ISSUE #534 March 21st, 2021
News
The State of Devops report is in its 10th year. This year’s survey is now open, focusing this year on how teams and work are organized, interaction between teams, feedback loops, self-service and more.
- 先週のKubeWeekly #255で取り上げているので割愛。サーベイはこちらから。
A post arguing for software bill of materials standards and implementations. Lots of context to the problem and to how similar risks are mitigated in other areas.
- タイトルは「Why the World Needs a Software Bill Of Materials Now」。
- ハッキング「Sunburst」を切り口に、ソフトウェアサプライチェーン攻撃、bill of materials(BOM)などについて解説している。
gRPC is a general-purpose RPC layer. Addressing a range of different types of services means it’s configurable. And configuration is often a source of errors. This post explains why, along with some examples to learn from.
- タイトルは「gRPC is easy to misconfigure」。
- 筆者が最近遭遇した厄介な下記2つのエッジケースについて解説している。
- Client keepalive is dangerous: do not use it
- Servers cannot return errors larger than 7 kiB
A 3 part series covering a wide range of production troubleshooting stories; performance problems, database migration, proxies, caching and more.
- 上記の通り3部作の記事。上記リンクのPart1のタイトルは「Troubleshooting web apps issues: 6 recent cases from our SREs」。
- Part2「Recent troubleshooting cases from our SREs, part 2」はこちら。
- Part3「Recent troubleshooting cases from our SREs, part 3」はこちら。
Are you tired of bumping the image tag manually every time you make a change in Kubernetes? This post covers how to automate deployments and updates using Argo CD.
- タイトルは「Closing CI/CD loop using Argoproj」。
- アプリの新しいコンテナイメージが利用可能になる時期を継続的に監視し、Gitリポジトリ内のイメージタグを自動的に更新するツール「ArgoCD Image Updater」を解説している。
An interesting interview on the importance and challenges of application security.
- タイトルは「The biggest challenges—and important role—of application security」。
- アプリケーションセキュリティー(AppSec)、セキュリティー組織におけるその役割、およびAppSecプロフェッショナルの課題に関する洞察を共有している。
Standards benefit from multiple implementations. This post on runj describes a new OCI runtime implementation targeting FreeBSD and it’s Jails capability.
- タイトルは「runj: a new OCI Runtime for FreeBSD Jails」。
- 筆者がオープンソースかしたFreeBSDjail用の新しい実験的なPOC(proof-of-concept)のOCI互換ランタイム「runj」を紹介している。
SRE Weekly Issue #262 March 21st, 2021
Articles
The Prerequisites for Chaos Engineering
Chaos Engineering isn’t adding chaos to your systems—it’s seeing the chaos that already exists in your systems.
Along with four prerequisites, this article also includes 3 myths about chaos engineering that might be making you feel hesitant about starting.
Courtney Nash — Verica
- チームのカオスエンジニアリングに備えるために必要な基本事項について解説している。
- 冒頭で以下のようにカオスエンジニアリングにある程度精通していることを前提としている記事であることと、オススメ記事を案内している。
- Ed note: This post presumes you have some familiarity with Chaos Engineering, and are considering whether you can start experimenting with it at your organization. If you’re not familiar with Chaos Engineering, here’s a great post to get you up to speed.
Managing On-Call in a Pandemic
This one’s from May of last year. Almost a year on, it’s interesting to see which of these we’ve already implemented.
Ashley Roof — Transposit
- Google、YouTube、YikYakなどで20年間オンコールエンジニアリングチームを管理してきた、ベテランのオンコールベテランであるEric Mayers氏に、成功したリモートオンコールエンジニアリング組織を構築した初期の頃から実践的なアドバイスを引き出している。
Being Just Reliable Enough
An amusing parable illustrating why not to try to be too reliable.
Andrew Ford — Indeed
- 週末の筆者の体験から、Indeed社でシステムの信頼性と新機能の速度を管理する方法に適用するいくつかの良い点解説している。
Google debunks Russian claims that fire was connected to service outage
In the Outages section of last week’s issue, you’ll find two unrelated events referenced in this article: one about Russian internet censorship gone awry and another about a major datacenter fire.
Eric Johansson — Verdict
- フランスにあるクラウドサービスプロバイダーOVHcloudのデータセンターでの火災に関連するロシア当局と、Google社の発表について解説している。
How to Analyze Contributing Factors Blamelessly
Along with what’s in the title, this article also covers the difference between an RCA and a contributing factors analysis.
Emily Arnott — Blameless
- タイトルに沿って以下のポイントで解説している。
- The feature launch schedule doesn’t account for server update timings
- No policy to scale up server availability for feature launches
- Server architecture could be updated to support more traffic
- Incident response team could be overworked with new feature launch, delaying backup server availability
Rethinking site capacity projections with Capacity Analyzer
Lots of detail on how LinkedIn is improving their traffic forecasts. Warning/enticement: math contained within.
Deepanshu Mehndiratta — LinkedIn
- 数年前の前例のないトラフィック増加により負荷テストモデルが破られ、本番データセンター全体で負荷テストに合格するのに苦労したことを受けて行った取り組みを詳細に解説している。
Testing in Production for Safety and Sanity
Everyone is testing in production, some organizations admit and plan for it.
How to do it right, what can happen if it goes wrong, and how to limit the blast radius.
Heidi Waterhouse — LaunchDarkly
- タイトルの通り、本番環境でのテストについて「他のテストに取って代わるものなのか?」などの疑問に答えつつ解説している。Webページの最後に参考となるYouTube動画が2つ埋め込まれている。
How we found and fixed a rare race condition in our session handling
Remember when GitHub logged you out? Ah, I remember it like it was last week. I mean, the week before. Here’s GitHub’s troubleshooting story about what went wrong.
Dirkjan Bussink — GitHub
- 3月8日にGitHub社がセキュリティーの脆弱性対応として行った内容を共有している。
Outages
- Google Cloud Platform
GCP had a major multi-region networking issue, due to a routing glitch. Click through for their followup post. - US National Oceanic and Atmospheric Administration (NOAA)
This outage impaired NOAA’s tsunami early warning system. - Facebook, Instagram, and WhatsApp
- TikTok
- Elevated error rates
- Microsoft Teams and other services
Click through for a highly detailed description of what went wrong. I can’t link directly to the incident in question, so you’ll have to scroll down to 3/15.
上記各社の障害情報
KubeWeekly #256 March 26th, 2021
The Headlines
Editor’s pick of the highlights from the past week.
KubeCon + CloudNativeCon Europe 2021 – Virtual: Co-located event schedules now available!
KubeCon + CloudNativeCon Europe 2021 – Virtual is right around the corner (May 4-7) and what better way to extend your experience than adding on registration for a co-located event? These additional educational opportunities (additional registration and fee required) will take place on May 3 or 4, and we’re excited to share the recently published schedules for CNCF-hosted events. Find the details below:
Cloud Native Rust Day (May 3)
Cloud Native Security Day Europe (May 4)
Cloud Native Wasm Day (May 4)
Crossplane Community Day Europe (May 4)
FluentCon: Cloud Native Logging day with Fluent Bit & Fluentd (May 4)
Kubernetes AI Day (May 4)
Kubernetes on Edge Day (May 4)
Magma Day (May 3)
PromCon Online 2021 (May 3)
ServiceMeshCon Europe (May 4)
- KubeCon + CloudNativeCon Europe 2021のCo-locatedイベントが出揃ったようです。更に選択肢が増えて楽しみ。
Announcing #GitOps Summit on June 22, 2021
— Continuous Delivery Foundation (CDF) (@CDeliveryFdn) 2021年3月23日
Co-located w/#cdCon & co-hosted w/@CloudNativeFdn
Registration is free!https://t.co/CFDHUHm9eJ pic.twitter.com/TYLvbp6PAs
The Technical
Tutorials, tools, and more that take you on a deep dive into the code.
Modern continuous delivery on Kubernetes for developers
Gabriel Tanner
- 読者が最新の継続的デリバリーの最も重要な概念を理解し、パイプラインコードを1行も記述しなくても、完全な継続的デリバリーワークフローを備えたKubernetesのデプロイを保持することを目指した記事。Keptnを利用したデモを紹介している。
Kubernetes Ingress Tutorial: Day 32 of #100DaysOfKubernetes
Anais Urlichs
- Docker-Desktop上のKubernetesクラスターにIngress Controllerをセットアップするプロセスについて解説しているYouTube動画。
Scaling microservices on Kubernetes
Ashley Davis
- タイトルに沿って以下ポイントを解説している。
- Vertically Scaling the Cluster
- Horizontally Scaling the Cluster
- Horizontally Scaling an Individual Microservice
- Elastic Scaling for the Cluster
- Elastic Scaling for an Individual Microservice
- About the Book: Bootstrapping Microservices
- Other Kubernetes Resources
Prometheus monitoring for Kubernetes
Saiyam Pathak, Civo
- タイトル通りPrometheusを約5分で紹介しているYouTube動画。いつの間にか「CNCFMinutes」というシリーズになっている。
Announcing Alpha OpenTelemetry access logging support in Envoy
Itamar Kaminski
- OpenTelemetry 0.7.0 Protocol releaseに基づいて、アクセスログを実装するEnvoyでのOpenTelemetryアクセスログのAlphaサポートを紹介している。
QuarkContainer/Quark
A secure container runtime with OCI interface
- Quark ContainerのGitHubページ。特徴は以下の3点。
- OCI compatible: Quark Container includes an Open Container Initiative (OCI) interface. Common Docker container image can run in Quark Container.
- Secure: It provides Virtual Machine level workload isolation and security.
- High Performance: Quark Container is born for container workload execution with high performance. It developed with Rust language.
ICYMI: CNCF online programs this week
A weekly summary of CNCF online programs from this week.
Automating SRE from “Hello World” to Enterprise Scale with Keptn
Jürgen Etzlstorfer & Andi Grabner @Dynatrace
- KeptnのMaintainerが最も一般的なユースケースを紹介し、最初のプロジェクトを開始する方法、Keptnを使用して企業内のすべてのプロジェクトにこれらのプラクティスを拡張する方法を解説している。
Flux is Incubating + the road ahead
Stefan Prodan @Weaveworks
- 「Flux」プロジェクトの概要、進化、Flux 2への道、Flux v1メンテナンスモードの意味、開始するのに最適なエントリーポイント、移行の方法について解説している。
Securing access to your Kubernetes applications – Using Dex for authentication and role based access control (RBAC) for authorization
Deepika Dixit & Onkar Bhat @Kasten by Veeam
- OpenID connectを使用して他のアプリの認証を促進するオープンソースのIDサービスである「Dex」の概要を説明し、ユースケースの大部分をカバーしながらRBACを採用する効果的な方法を解説している。
Scaling monitoring at Databricks from Prometheus to M3
YY Wan & Nick Lanham @Databricks
- M3を決定した理由、M3をどのようにデプロイしたかについて話し合い、その過程で学んだ教訓を共有している。
Why your APIs should fly first class
Robert Ross @FireHydrant
- APIを最優先することがビジネスのゲームチェンジャーになる理由を以下のポイントで解説している。
- The benefits of building your API first and how it can pay dividends in the long haul
- The different types of APIs and which choice is the right choice
- The importance of hosting API documentation
Cloud Native Live: Crossplane – GitOps-based Infrastructure as Code through Kubernetes API
Viktor Farcic @CodeFresh
- 「Crossplane」を紹介している約1時間のセッション。
The Editorial
Articles, announcements, and morethatgive you a high-level overview of challenges and features.
Replicated, with Grant Miller
Craig Box, Kubernetes Podcast from Google
- Google社社員によるKubernetes Podcast。今回のHostはCraig Box氏とGuest HostのLiz Rice氏。Liz Rice氏はCNCFのTOC Chairを勤められいて、最近Aqua Security社からIsovalent社に移られた。
- Replicated社のco-founder、CEOであるGrant Miller氏をゲストとして迎えている。
- News of the weekで気になったトピックは以下の通り。
10 predictions for cloud native in 2021 – Keynote, The DevOps Conference
Cheryl Hung, CNCF
- タイトル通り、以下の内容を紹介しKubeCon + CloudNativeCon Virtual EU, May 4-7への参加を呼び掛けているThe DevOps Conferenceの
Keynoteのスライド。
🛠 Tech
👩🏻💻 DevOps1. More Rust in Cloud Native 2. Cross Cloud becomes (more) real 3. Web Assembly and eBPF 4. Kubernetes on the Edge
🌐 Ecosystem5. GitOps grows significantly 6. Chaos Engineering practices 7. Rise of FinOps
8. Pluggable developer and operator experience 9. Service mesh consolidation 10. End user driven open source
Take the CNCF Kubernetes at the Edge microsurvey
- 今週のCNCFからの3つのサーベイ案内の第1弾。
Take the FinOps (CFM) for Kubernetes CNCF microsurvey
- 今週のCNCFからの3つのサーベイ案内の第2弾。
- 元のリンクが壊れていたので、不要な部分を削除して記載。
Take the CNCF Diversity microsurvey
- 今週のCNCFからの3つのサーベイ案内の第3弾。
Cloud Native Security Day: Protecting our cloud native world, one container at a time
Magno Logan
- KubeCon EU2021の期間中にCo-located Eventとして開催されるCloud Native Security Day(CNSD)の紹介をしている。
Huge congratulations to @dims for getting elected to the @CloudNativeFdn CNCF TOC. IMO this is one of those times where title is a trailing indicator; @dims has been at this for a while.
— Aaron Crickenberger (@spiffxp) 2021年3月22日
Equally huge thanks to @michellenoorali for all that she has done.https://t.co/nCmzQ6nAZ9
Upcoming CNCF Online Programs
Cloud Native Live: Application life-cycle orchestration with Keptn
Jürgen Etzlstorfer & Andi Grabner @Dynatrace
March 31, 2021 at 12pm PT
Register Now
Introducing Kubestr: a new way to explore your Kubernetes Storage Options
Michael Cade @Kasten by Veeam
April 1, 2021
Register Now
CNCF Online Programs Playlist on YouTube
Check out our playlist for more curated content you don’t want to miss! New content is added every Friday.
- For more information, please visit our updated Online Programs page.
いかがでしたか?気になる記事や情報はありましたか?
私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。
では、また。
Bye now!!