SRE / DevOps / Kubernetes Weekly Reportまとめ#83(2021/8/29~9/3)
- The English Version of this blog is here.
- この記事は2021/8/29~9/3発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
- なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- DEVOPS WEEKLY ISSUE #557 August 29th, 2021
- News
- Results from a recent survey of more than 3200 practitioners looking at the state of cloud adoption. Security, cost, skills shortages, multi-cloud, spend and lots of other interesting topics covered.
- An interesting post on instrumenting infrastructure deployment, in this case using Pulumi and Honeycomb and low-level libraries for each.
- “The Domain Name System or DNS is a never-ending source of amusement and amazement.” The latest post in this series looks at TLDs.
- Another internet fundamentals posts, this one looking at email authenticity with DKIM, SPF and DMARC.
- Establishing trust in the context of untrusted networks is an interesting, and increasingly relevant problem given how we build software today. This post looks at approaches based around trust on first use and the role of transparency logs.
- JSON Schema has been seeing quite a bit of development recently. This post mainly looks at the new bundling capabilities in the latest version of the specification, but touches on other recent improvements too.
- A great story of debugging a production problem and seemingly innocuous changes having a large effect.
- Sometimes the thing that causes an outage is getting a calculation wrong. This post features several reliability problems caused by maths errors.
- Events
- Tools
- News
- SRE Weekly Issue #285 August 29th, 2021
- Articles
- Computers are the easy part
- Rethinking Best Practices
- How to Improve Upon Google’s Four Golden Signals of Monitoring
- Root cause of failure, root cause of success
- IBM PREVAIL Conference: October 19–21, 2021
- Notes on the Perfidy of Dashboards
- What makes public posts about incidents different from analysis write-ups
- Heroku Incident #2300 Follow-Up
- TLDs — Putting the ‘.fun’ in the top of the DNS
- Why Observability Requires a Distributed Column Store
- Outages
- Articles
- KubeWeekly #275 September 3rd, 2021
- The Headlines
- ICYMI: CNCF online programs this week
- The Technical
- Enable seccomp for all workloads with a new v1.22 alpha feature
- Managing Kubernetes seccomp profiles with security profiles operator
- Shipwright - building container images in Kubernetes
- Distributed tracing with Knative, OpenTelemetry and Jaeger
- A Kubernetes engineer's guide to mTLS
- Service Mesh 101: The role of Envoy
- The Editorial
- Updates on Google's continued collaboration with NIST to secure the software supply chain
- Unicron, with Daniel Megyesi
- How FinOps changed the way businesses approach the cloud
- Docker is updating and extending our product subscriptions
- A guide to spot-readiness in Kubernetes
- September 2021 update
- How Istio, Tempo, and Loki speed up debugging for microservices
- Why cloud native open source is critical for Twitter and Spotify
- Upcoming CNCF Online Programs
The English Version of this blog is here.
この記事は2021/8/29~9/3発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。
なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。
- 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #557 August 29th, 2021
SRE Weekly Issue #285 August 29th, 2021
KubeWeekly #275 September 3rd, 2021
- この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
- 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
- 情報量が多いので文字とリンクだけに絞っております。
- 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。
DEVOPS WEEKLY ISSUE #557 August 29th, 2021
News
Results from a recent survey of more than 3200 practitioners looking at the state of cloud adoption. Security, cost, skills shortages, multi-cloud, spend and lots of other interesting topics covered.
- タイトルは「HashiCorp State of Cloud Strategy Survey: Welcome to the Multi-Cloud Era」。
- 上記の通り、クラウドの採用、マルチクラウドに関するHashiCorp社のサーベイ結果の共有。
An interesting post on instrumenting infrastructure deployment, in this case using Pulumi and Honeycomb and low-level libraries for each.
- タイトルは「Observable Infrastructure as Code」。
- PulumiとHoneycombを使用して、IaCの可観測性をシンプルにする方法を解説している。
“The Domain Name System or DNS is a never-ending source of amusement and amazement.” The latest post in this series looks at TLDs.
- タイトルは「TLDs -- Putting the '.fun' in the top of the DNS」。
- DNSのトップレベルドメインについて深堀りしている。想像以上に奥深い。
Another internet fundamentals posts, this one looking at email authenticity with DKIM, SPF and DMARC.
- タイトルは「Email Authenticity 101: DKIM, DMARC, and SPF」。
- タイトルにある要素を解説し、独自ドメインの電子メールでなりすましの影響を受けにくくする情報とプラクティスを提供している。
Establishing trust in the context of untrusted networks is an interesting, and increasingly relevant problem given how we build software today. This post looks at approaches based around trust on first use and the role of transparency logs.
- タイトルは「Improving TOFU With Transparency」。
- TOFU(Trust-On-First-Use)が機能する場合と機能しない場合、および透明性ログを利用した緩和策を解説している。
JSON Schema has been seeing quite a bit of development recently. This post mainly looks at the new bundling capabilities in the latest version of the specification, but touches on other recent improvements too.
- タイトルは「JSON Schema bundling finally formalised」。
- タイトルに沿って以下のポイントを解説している。
- Bundling has renewed importance
- Existing solutions? New solutions!
- Bundling fundamentals
- Bundling Simple External Resources
- OpenAPI Specification Example
- But what about...
A great story of debugging a production problem and seemingly innocuous changes having a large effect.
- タイトルは「Computers are the easy part」。
- 冒頭で航空機の安全性の世界での機械的な故障がなく、パイロットの完全な制御下にある航空機が意図せずに地上に操縦される事故「Controlled Flight Into Terrain(CFIT)」について触れ、直近で顧客影響は無かったものの数日間に亘った社内の障害から得た学びを共有している。
Sometimes the thing that causes an outage is getting a calculation wrong. This post features several reliability problems caused by maths errors.
- タイトルは「You Do the Math: Reliability Issues Triggered by Math Errors」。
- タイトルに沿って、少なくとも部分的には数学の誤りによって引き起こされた以下4つのインシデントまたはイシューを解説している。
- NASA’s $125 million math mistake
- Windows Calculator fails to calculate
- The math bug that cost Intel $475 million
- Y2K: The math bug that (mostly) wasn’t
Events
A new virtual event coming October 19th to 21st, PREVAIL is focused on all things non-functional requirements. The call for papers is open until 10th of September.
- 上記の通り、10/19-10/21にIBM社主催で開催される新しいバーチャルイベント「PREVAIL 2021」のWebページ。
Tools
Octopilot is a CLI tool designed to help you automate your Git workflow, by automatically creating and merging GitHub Pull Requests to update specific content in Git repositories.
- GitHubのプルリクエストを自動作成してマージし、Gitリポジトリ内の特定のコンテンツを更新することで、Gitopsワークフローの自動化を支援するCLIツール「Octopilot」のGitHubページ。
- 紹介記事はこちら。
SRE Weekly Issue #285 August 29th, 2021
Articles
Computers are the easy part
What’s so great about this incident write-up is the way that entrenched mental models hampered the incident response. There’s so much to learn here.
Ray Ashman — Mailchimp
- 上記のDEVOPS WEEKLY ISSUE #557で取り上げているので、割愛。
Rethinking Best Practices
The parallels between this and the Mailchimp article are striking.
Will Gallego
- タイトルに沿って以下のポイントで解説している。
- Akin to Root Cause
- When do we decide what’s best?
- Best Practices lack flexibility
- Best Practice: Don’t use “Best Practice”..?
How to Improve Upon Google’s Four Golden Signals of Monitoring
This includes a review of the four golden signals and presents three areas to go further.
JJ Tang — Rootly
- 先週のDEVOPS WEEKLY ISSUE #556で取り上げているので、割愛。
Root cause of failure, root cause of success
This one thoughtfully discusses why “root cause” is a flawed concept, approaching the idea from multiple directions.
Lorin Hochstein
- 先週のDEVOPS WEEKLY ISSUE #556で取り上げているので、割愛。
IBM PREVAIL Conference: October 19–21, 2021
Check it out, a new SRE conference! This one’s virtual and the CFP is open until October 1.
Robert Barron — IBM
- 上記のDEVOPS WEEKLY ISSUE #557で取り上げている「IBM PREVAIL Conference」の紹介記事。前述の記事では、Editorが「The call for papers is open until 10th of September.」とコメントしていたが、「Submission deadline:October 1, 2021」の記述がある。更新されたのか?
Notes on the Perfidy of Dashboards
To be clear, this article is about static dashboards that just contain pre-set graphs of specific metrics.
every dashboard is an answer to some long-forgotten question
Charity Majors
- タイトル通り、ダッシュボードの注意点、使い所を以下のポイントで深掘りしている。
- STATIC VS DYNAMIC DASHBOARDS
- DEBUGGING WITH DASHBOARDS: IT’S A TRAP
- IF WE DID MATH LIKE WE DO DASHBOARDS
- THE LIMITATIONS OF METRICS AND DASHBOARDS
- OTHER COMPLAINTS ABOUT DASHBOARDS:
- IN CONCLUSION
What makes public posts about incidents different from analysis write-ups
Public incident posts give us useful insight into how companies analyze their incidents, but it’s important to remember that they’re almost never the same as internal incident write-ups.
John Allspaw — Adaptive Capacity Labs
- タイトル通り、企業がインシデントについて公開する公開記事が、効果的なインシデント分析を表す内部の記事と異なる理由と、この違いが重要である理由を解説している。
Heroku Incident #2300 Follow-Up
In this incident from July 7, front-line routing hosts exceeded their file descriptor limits, causing requests to be delayed and dropped.
Heroku
- 上記の通り、Heroku社の2021/07/07に発生したインシデントのフォローアップ記事。
TLDs — Putting the ‘.fun’ in the top of the DNS
.io, assigned to the British Indian Ocean Territory is almost exclusively used by annoying startups for content completely unrelated to the islands.
Remember, it’s all fun and games until the random country you’ve attached your business to has an outage in their TLD DNS infrastructure.
Jan Schaumann
- 上記のDEVOPS WEEKLY ISSUE #557で取り上げているので、割愛。
Why Observability Requires a Distributed Column Store
If you’re curious about just what a columnar data store is like I was, this article is a good introduction.
Alex Vondrak — Honeycomb
- 分散列ストアと(Distributed Column Store)は何か、その機能、および分散列ストアが可観測性を実現するための基本的な要件である理由を解説している。
Outages
上記各社の障害情報。
KubeWeekly #275 September 3rd, 2021
The Headlines
Editor’s pick of the highlights from the past week.
From incubation to augmentation, how software projects grow
- タイトルの内容について、CNCFのOpenTelemetryプロジェクトを題材に解説している。
ICYMI: CNCF online programs this week
A weekly summary of CNCF online programs from this week.
Windows came second
Daniel Prizmant, Palo Alto Networks
- クラウドネイティブアプリのWindowsコンテナーに関する脅威の調査を共有している約33分間のセッション。
Composing your way to a control plane powered future
Dan Mangum, Upbound
- CrossplaneのCompositionを使用してYAMLを書くだけで、独自のクラウドAPIを定義する方法を解説している約55分間のセッション。
So this happened. I'm selected as an LFX Mentee and will be contributing to @kubernetesio!🥳
— Jayesh Srivastava (@jayeshstwter) 2021年8月31日
Thank you so much @dims and @comedordexis for this opportunity. Also, shoutout to @kunalstwt without whom I'd have never known about this program.
Open source FTW!🚀@linuxfoundation pic.twitter.com/CLCZDAOXyC
The Technical
Tutorials, tools, and more that take you on a deep dive into the code.
Enable seccomp for all workloads with a new v1.22 alpha feature
Sascha Grunert, Red Hat
- タイトル通り、v1.22で導入されたKubernetesの新機能を解説している。
Managing Kubernetes seccomp profiles with security profiles operator
- タイトルの内容を以下のポイントで解説している。
- Security Profile Operator features
- Installation
- Creating a seccomp profile
- Using a seccomp profile
- Profile inheritance using base profiles
- Using profile bindings
- Recording Profiles
- Metrics and Log enrichment
- Wrap
Shipwright - building container images in Kubernetes
Viktor Farcic
- Kubernetesでコンテナイメージを構築する拡張可能なフレームワーク「Shipwright」を解説している約21分間の動画。
Distributed tracing with Knative, OpenTelemetry and Jaeger
Ben Moss, VMware
- Knative Eventingを使用した分散トレースの設定、それがプログラムの理解を深めるのにどのように役立つか、またEventingが内部でどのように機能するかを解説している。
A Kubernetes engineer's guide to mTLS
William Morgan, Buoyant
- mTLSとは何か、「通常の」TLSとどのように関連するか、Kubernetesに関連する理由、mTLSとその代替案の長所と短所を解説している。そして、Linkerdを使用してKubernetesクラスターにmTLSを追加する方法も紹介している。
Service Mesh 101: The role of Envoy
Scott Lowe, Kong
- サービスメッシュとは何か、機能、Envoyがサービスメッシュのどこに適合を解説している。サービスメッシュでのEnvoy構成の基本に焦点を当てたより詳細なコンテンツを見たい場合は、続きの記事「Service Mesh 102: Envoy Configuration」を参照。
“Why is he wearing that bandit hat...” at Cloud Native Security Con October 12th?! Register to see if you can spot R. Raccoon the OG bandit! #cnscon https://t.co/wochPrCj56 pic.twitter.com/NLCrbL0s9w
— Emily Fox (@TheMoxieFox) 2021年8月31日
The Editorial
Articles, announcements, and morethatgive you a high-level overview of challenges and features.
Updates on Google's continued collaboration with NIST to secure the software supply chain
Eric Brewer and Dan Lorenc, Google
- Google社のバイデン大統領主催のホワイトハウスサイバーセキュリティサミットへの参加と発表の報告。Google社のソフトウェアサプライチェーンを保護における米国商務省のNational Institute of Standards and Technology (NIST)との継続的なコラボ、同社のオープンソースセキュリティの強化に今後5年間で100億ドルを投資するなどの取り組みを共有している。
- 多くの情報がリンク付きで紹介されているので、それぞれ目を通しておきたい。
Unicron, with Daniel Megyesi
Craig Box, Kubernetes Podcast from Google
- Google社社員によるKubernetes Podcast。今回のHostはCraig Box氏とGuest HostのJimmy Moore氏。
- Adevinta社のビックデータと機械学習の中心的なプラットフォームである UnicronのmaintainerおよびDevOps engineerであるDaniel Megyesi氏をゲストとして迎えている。同氏によるUnicronの紹介記事は以下。
- Introducing Unicron, our big data and Machine Learning platform
- News of the weekで気になったトピックは以下の通り。
How FinOps changed the way businesses approach the cloud
Virtasant Research Team
- CNCFへのゲスト投稿記事。元記事は「Virtasant blog」にて同一のタイトルで掲載されている。
- 「FinOps Foundation」「State of FinOps Report 2021」など、FinOpsのキーワードや参考となる資料が添えられているので、入門するのに良さそう。
Docker is updating and extending our product subscriptions
- Docker Desktopの商用大規模利用の有償化の記事。
- 商用利用の条件は以下。個人利用は引き続き無料で使える。記事中に無料のコンポーネントとして明確に記載があるので、不安な場合は本文を確認する。
- 250名以上の社員あるいは$10M/yearの売り上げがある組織では有料サブスクリプションが必要になり、遅くとも来年2022年1月末までに契約が必要
- 適用期間は2021/08/31からスタート。猶予期間(grace period)が来年2022年1月末まで。
A guide to spot-readiness in Kubernetes
Michael Dresser & Alex Thilen, Kubecost blog
- タイトル通り、スポットインスタンスをKubernetes環境で活用するためのガイドとして、その必要性と「Kubecost’s Spot-Readiness Checklist」「Kubecost」を以下のポイントで解説している。
- What are spot instances and why use them?
- What’s the customer challenge today?
- Enter… Kubecost’s Spot-Readiness Checklist
- Implement spot nodes in your cluster using Kubecost, for free!
September 2021 update
Daniel Holbach, Flux
- Fluxの9月のアップデート。8月のリキャップとして、以下の項目で解説している。
- Flux Project Facts
- News in the Flux family
- Upcoming events
- In other news
- Over and out
How Istio, Tempo, and Loki speed up debugging for microservices
Antonio Berben, Solo.io
- Grafana Labs社のブログにて「マイクロサービスを介したリクエストに関連するすべての要素を表示するダイアグラムを作成すると、バグを見つけたり、事後分析を実行するときにシステムで何が起こったかを理解したりする速度が向上する」という観点でタイトルにあるツールのハンズオンとGrafana Cloudの紹介をしている。
Why cloud native open source is critical for Twitter and Spotify
Alex Williams and B. Cameron Gain, The New Stack
- CNCFがスポンサーしている約31分間のPodcastとその概要記事。タイトルに沿って両社の技術設計プロセス、取り組み等が聴けて興味深い。
Upcoming CNCF Online Programs
Live Webinar
- September 7 at 10am PT: Kubernetes 1.22 release presented by Savitha Raghunathan, James Laverack & Jesse Butler, Kubernetes 1.22 Release Team - RSVP
Cloud Native Live
- September 8 at 9am PT: Kubernetes clusters need persistent data presented by Alex Chircop, StorageOS - RSVP
Looking for more great curated content? Visit our Online Programs playlist on YouTube.
Learn more about CNCF Online Programs
いかがでしたか?気になる記事や情報はありましたか?
私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。
では、また。
Bye now!!