SRE / DevOps / Kubernetes Weekly Reportまとめ#71(2021/6/6~6/11)
- The English Version of this blog is here.
- この記事は2021/6/6~2021/6/11発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
- なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- DEVOPS WEEKLY ISSUE #545 June 6th, 2021
- News
- An excellent post on building a healthy on-call culture for developers. Lots of concrete advice, centered on respecting engineers and their time.
- ProtoBuf API v2 has some large performance implications. This post is a good primer, as well as a look at how one project solved the problem with a project-specific code generator.
- Is an AWS account a security boundary? This post digs into the details, showing a large number of ways services cross accounts.
- Moving from a monolithic architecture to one based on many services often means having to distribute authorization. This post explores how one organization used humeji.
- Some useful tips for building usable monitoring dashboards.
- A post on the benefits of being able to repave a datacenter, including tips on how to get started.
- A look at a toolchain for building and publishing container images, using GitHub Actions and ECR. It’s a good example of the trade off between complexity and secure tool chains with current tooling.
- Tools
- News
- SRE Weekly Issue #273 June 6th, 2021
- Articles
- Incident Management vs. Incident Response
- Cores that don’t count
- Minimizing ossification risk is everyone’s responsibility
- What is resilience engineering? A lightning talk with background information
- Dealing with new kinds of trouble
- Please don’t count outages (or SEVs, or whatever)
- How Facebook deals with PCIe faults to keep our data centers running reliably
- GitHub Availability Report: May 2021
- Building a Healthy On-Call Culture
- Outages
- Articles
- KubeWeekly #265 June 11th, 2021
- The Headlines
- CloudNative TV launched this week!
- ICYMI: CNCF online programs this week
- The Technical
- The Editorial
- In the Clouds (S2E6) | CNCF’s Priyanka Sharma
- Cloud-agnostic third party managed Kubernetes services – the unexploited opportunity
- Introducing Kubernetes Community Days Bengaluru 2021
- Harbor operator 1.0 is available now!
- Reminder: Take the CNCF Cloud Native Survey - Part 1 to share your thoughts on cloud, containers, and Kubernetes.
- Upcoming CNCF Online Programs
The English Version of this blog is here.
この記事は2021/6/6~2021/6/11発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #545 June 6th, 2021
SRE Weekly Issue #273 June 6th, 2021
KubeWeekly #265 June 11th, 2021
- この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
- 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
- 情報量が多いので文字とリンクだけに絞っております。
- 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。
DEVOPS WEEKLY ISSUE #545 June 6th, 2021
News
An excellent post on building a healthy on-call culture for developers. Lots of concrete advice, centered on respecting engineers and their time.
- タイトルは「Building a Healthy On-Call Culture」。
- 上記のEditorのコメント通り、最適なオンコールの頻度、ローテーションの人数、引き継ぎの目安時間など、とても具体的なアドバイスに富んでいて素晴らしい記事。
ProtoBuf API v2 has some large performance implications. This post is a good primer, as well as a look at how one project solved the problem with a project-specific code generator.
- タイトルは「A new Protocol Buffers generator for Go」。
- VitessのProtocol Buffersとの付き合い、パフォーマンスチューニング、ベンチマークなどが見れる記事。
Is an AWS account a security boundary? This post digs into the details, showing a large number of ways services cross accounts.
- タイトルは「AWS Accounts as Security Boundaries — 97+Ways Data Can be Shared Across Accounts」。
- AWSのアカウント自体がセキュリティ境界として機能することを前提としたアカウント戦略と、各サービスとそれらのデータを AWS アカウント間で共有する方法を解説している。
- GitHub上のリストはこちら。スプレッドシート版はこちら。
Moving from a monolithic architecture to one based on many services often means having to distribute authorization. This post explores how one organization used humeji.
- タイトルは「Himeji: A Scalable Centralized System for Authorization at Airbnb」。
- Airbnb社の Zanzibarベースの認可システムである「Himeji」を紹介している。図にある「Himeji Cache」がどうしても、「Himeji Castle」に見えてしまう。
Some useful tips for building usable monitoring dashboards.
- タイトルは「[MONITORING] How to build your monitoring dashboards?」。
- 以下の2つのStrategyを対比してモニタリングダッシュボードの作り方を案内している。
- Strategy 1: Yeah, I do not know. We have metrics, we plot metrics
- Strategy 2: Overview. Top-down. Left-right. Cohesive. Consistent.
A post on the benefits of being able to repave a datacenter, including tips on how to get started.
- タイトルは「IS REPAVING DATA CENTERS THE WAY TO BETTER ROI?」。
- 以下の項目で簡潔にタイトルの内容について論じている。
- Why Repave Your Data Center?
- IT Ops become Innovation Leaders Instead of Blockers
- Planning Considerations
- It’s OK to Start Small
- Real Talk
A look at a toolchain for building and publishing container images, using GitHub Actions and ECR. It’s a good example of the trade off between complexity and secure tool chains with current tooling.
- タイトルは「A Rube Goldberg Machine for Container Workflows」。
- 最近のコンテナ ワークフローについて解説している記事。
- 記事内で紹介しているGitHub Container Registry to Amazon Elastic Container Registry Image SyncのGitHubページはこちら。
Tools
Managing tags for cloud resources is critical but also a pretty thankless task. Yor is a new tool to help, that integrates with infrastructure as code and is intended for use in a CI pipeline.
- Terraform、CloudFormation、Serverless などのInfrastructure-as-Code フレームワーク全体に有益で一貫性のあるタグを追加するのに役立つオープンソースツール「Yor」のGitHubページ。
- Webページはこちら。
SRE Weekly Issue #273 June 6th, 2021
Articles
Incident Management vs. Incident Response
What indeed? It depends on who you ask.
Quentin Rousseau — Rootly
- インシデント管理(Management)とインシデント対応(Response)のいくつかの競合する視点での類似点と相違点、およびさまざまな視点から SRE が学べることを解説している。
Cores that don’t count
This academic paper explains Google’s efforts toward identifying “mercurial” CPU cores — cores that make erroneous computations.
[…] we observe on the order of a few mercurial cores per several thousand machines […]
This one blew my mind:
A deterministic AES mis-computation, which was “selfinverting”: encrypting and decrypting on the same core yielded the identity function, but decryption elsewhere yielded gibberish.
Peter H. Hochschild, Paul Turner, Jeffrey C. Mogul, Rama Govindaraju, Parthasarathy Ranganathan, David E. Culler, and Amin Vahdat — Google
- 上記の通り、Google社が出している8ページの学術論文。Mercurial core、CEEs(Corrupt Execution Errors)を中心に、Abstract以降は以下の構成で論じられている。
- Introduction
- Impacts of mercurial cores
- Are mercurial cores a novel problem?
- The right metrics
- What causes mercurial cores?
- Detecting and isolating mercurial cores
- Mitigating CEEs
- Related work
- Next steps and research directions
Minimizing ossification risk is everyone’s responsibility
The decisions, non-decisions, and workarounds that we implement now can have lasting effects on the Internet as a whole.
Mark Nottingham — Fastly
Full disclosure: Fastly is my employer.
- タイトルに沿って、固定化を最小限に抑えることで、インターネットがスムーズに進化し続け、将来の課題に対応できるようになることを具体例を挙げながら解説している。
What is resilience engineering? A lightning talk with background information
A great intro to the topic of resilience engineering. Hint: resilience != high availability.
Piet van Dongen — Luminis Arnhem
- レジリエンスエンジニアリングとは何か、すべてのソフトウェア担当者がそれを知っておくべき理由、そしてどのようにそれを実践し始めるかを解説しているLTの背景情報や参考情報も含めた、まとめ記事。
- 該当の約11分間のLT動画と、他の参考となる動画も埋め込まれている。
Dealing with new kinds of trouble
When you include people in your definition of “the system”, something that looked like a system failure where humans had to “step in” is actually a success in which the system adapted.
Lorin Hochstein
- David Woods氏の論文「 The Theory of Graceful Extensibility: Basic rules that govern adaptive systems」から「graceful extensibility」との説明を引用しつつ、タイトルの内容を解説している。
Please don’t count outages (or SEVs, or whatever)
I find the way this author presented this argument especially convincing. My favorite part is the real-world story toward the end.
Rachel by the Bay
- 以前取り上げた記事「Stop Counting Production Incidents」に通じる内容なので、あわせて読むと良さそう。
How Facebook deals with PCIe faults to keep our data centers running reliably
Facebook presents their method for finding and dealing with PCIe errors in their infrastructure.
Ashwin Poojary, Bill Holland, Makan Diarra, and Ray Park — Facebook
- 上記のEditorコメントと、タイトル通り、PCIe(Peripheral component interconnect express)起因のエラーへの対処法として社内のツール群やワークフローなどを解説している。
GitHub Availability Report: May 2021
Overflow of a 32-bit integer primary key caused a security issue.
Scott Sanders — GitHub
- GitHub社の月次の「Availability Report」の5月分。5月に発生した2件のインシデントの事象、対応、対策などが解説されている。
Building a Healthy On-Call Culture
This caught my eye. I’ve seldom been in an on-call rotation with shifts that were not a week or two at a time.
The optimal frequency for being on call is about three days a month.
There’s also a good discussion of paying for on-call shifts, which, in my experience, goes a long way toward making on-call more palatable.
Christine Patton — SoundCloud
- 上記のDEVOPS WEEKLY ISSUE#545で取り上げているため、割愛。
Outages
- HBO Max
- Apple Card
- Sling TV
- Google Meet
- GitHub
- Discord
Discord had several outages this week.
上記各社の障害情報
KubeWeekly #265 June 11th, 2021
The Headlines
Editor’s pick of the highlights from the past week.
CloudNative TV launched this week!
We are now one week into launch of CloudNative.tv. The launch includes shows ranging from 101 explainers, to getting started contributing to projects, and highlighting the unique people that make up the CNCF’s community of doers. Week two will bring you the rest of our hosts including Solid State with Tim Banks, Cloud Native LatinX with Leonardo Murillo, CNCFaceOff with Matt Stratton, and Certs Magic with Saiyam Pathak. You can find the whole schedule here.
- 先週紹介されていた「CloudNative TV」がスタートしたことと、プログラムのスケジュールの紹介。
Editor's note: In observance of the Juneteenth holiday, there will be no KubeWeekly on June 18, 2021. We will resume publishing on June 25, 2021.
- 来週は祝日につき、KubeWeeklyがお休み。こうした情報が事前にもらえのは、個人的にありがたい。
ICYMI: CNCF online programs this week
A weekly summary of CNCF online programs from this week.
Use your favorite programming language to build your dream cloud native platform
Matt Stratton, Pulumi
- Pulumiのサービスを使って、Kubernetesでアプリをすばやく起動して実行するコード(Typescript)をライブコーディングしている約1時間のセッション。
Tackling Customer Issues in cloud native environments
Elinor Swery, Rookout
- チームがクラウド環境で顧客の問題をより効果的に管理できるようにするため、エンジニアリングマネージャーが採用できるさまざまな方法と戦略を解説している約30分のセッション。
Cloud native policy enforcement with Open Policy Agent
Anders Eknert, Styra
- OPA(Open Policy Agent)がクラウドネイティブスタックで大規模なPolicy Decisionを実施するのにどのように役立つかを解説している約34分のセッション。
Persist your data in an ephemeral K8s ecosystem
Eric Zietlow, MayaData
- Kubernetesをデータに使用する対象、理由、方法を解説している約14分のセッション。
🚨 NOTICE 🚨 If you are running one of these versions of Kubernetes: 1.18.19, 1.19.11, 1.20.7 or 1.21.1
— Bob Killen - Honkernetes Enthusiast (@MrBobbyTables) 2021年6月9日
PLEASE see this thread. The regression can cause kubelet to panic. 😬 https://t.co/xIApvVPWog
The Technical
Tutorials, tools, and more that take you on a deep dive into the code.
A new protocol buffers generator for Go
Vicent Marti, Vitess
- 上記DEVOPS WEEKLY ISSUE #545で取り上げているため、割愛。
A deep dive into Kubernetes Schema Validation
datree.io blog
- 設定ミスを回避する方法と、どのツールを使用するのが最適かを解説している。スキーマのバリデーションテストの重要性と、早い段階での実施を説いている。
I wrote a Twitter Bot using OpenFaaS to avoid missing out on CfP deadlines
Carlos Panato, OpenFaaS
- ボットを組み立てる方法と、独自のツールを作成して独自のプロジェクトのアイデアを得るために使用したツールを解説している。
Learn how to manage your functions with kubectl
Alex Ellis, OpenFaaS
- Kubernetesで関数をデプロイおよび管理するためのOpenFaaS APIおよびCLIの代替方法を解説している。
“Gateway Mode” in Kuma and Kong Mesh
Cody De Arkland, Kong
- Kong Gateway、Kuma、Kong Meshの製品間の関係と、それらを一緒に使用する方法について簡単に解説している。
- Webページに約6分の解説動画も埋め込まれている。
En directo, cerrando el 3 jornadas de divulgación sobre @kubernetesio por todo lo alto con #gitops, #experiencias, #serverless, #knative, #keda, #seguridad, #cryptominado, #cuda, #MachineLearning, #5G, #servicemesh, #gatekeeper, #opa... y mucho máshttps://t.co/ljgtfcsuGn pic.twitter.com/PCw5WktNyp
— Kubernetes Community Days Spain (@KCDSpain) 2021年6月10日
The Editorial
Articles, announcements, and morethatgive you a high-level overview of challenges and features.
In the Clouds (S2E6) | CNCF’s Priyanka Sharma
Chris Short, Red Hat
- CNCFのGM Priyanka Sharma氏をゲストに迎えてCNCFについて始まりの経緯から解説している約50分のセッション。私がCNDO 2021 Springで行ったセッションの上位互換の内容。
- 今まで見たPriyanka Sharma氏のインタビュー動画の中で、最もリラックスして話されている印象。
Cloud-agnostic third party managed Kubernetes services – the unexploited opportunity
Lars Larsson, Elastisys
- 現状に挑戦する以下5つの理由と、クラウドにとらわれないマネージドKubernetesサービスの可能性とあるべき姿を解説している。
- Ensure business continuity by letting a managed service provider handle your Kubernetes-based platform
- Increase ability to target new markets, even ones that require you to run on-premise (or just not at a major cloud provider).
- Increase process efficiency and minimize risk by reducing tool sprawl - in spite of deploying to multiple clouds.
- Make migration much easier, because not just your application, but also your platform, is cloud agnostic.
- Contribute to the cloud native community by being the community.
Introducing Kubernetes Community Days Bengaluru 2021
Neependra Khare, founder of CloudYuga and CNCF Ambassador
- 2021/06/25-26に開催される上記イベントの紹介記事。去年の開催がパンデミックの影響によりキャンセルとなったが、今年はバーチャル開催される。
- 登録はこちらから。
Harbor operator 1.0 is available now!
Harbor project team
- タイトル通り、Harbor operator 1.0のGAにあわせてコントリビューターへの感謝を伝え、現在の機能、今後の追加機能、ロードマップ、Harborプロジェクトなどを紹介している。
Reminder: Take the CNCF Cloud Native Survey - Part 1 to share your thoughts on cloud, containers, and Kubernetes.
- 引き続き「CNCF Cloud Native Survey - Part 1」のリマインダー。
Upcoming CNCF Online Programs
Cloud Native Live
- June 16: Turbocharging AKS networking with Calico eBPF presented by Chris Tomkins, Tigera - RSVP
On-demand Webinars
June 17: Monitoring Containers in Kubernetes in a Multi-Cloud Environment presented by Amit Sharma, Splunk - RSVP
June 10: Autoscaling Event Driven Applications with Fission & Keda presented by Vishal Biyani & Gaurav Gahlot, InfraCloud - RSVP
Looking for more great curated content? Visit our Online Programs playlist on YouTube.
Learn more about CNCF Online Programs
いかがでしたか?気になる記事や情報はありましたか?
私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。
では、また。
Bye now!!