運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#90(2021/10/17)

The English Version of this blog is here.

この記事は2021/10/17発行の下記2つのWeekly Report(KubeWeeklyが休みのため)を読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #564 October 17th, 2021
SRE Weekly Issue #292 October 17th, 2021
KubeWeekly #281 October 29th, 2021←KubeCon + CloudNativeCon NA 2021に伴い、今週も休み
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #564 October 17th, 2021

News

A good post introducing custom validation in Terraform, and why failing early is so important with any cloud automation.
  • タイトルは「FAILING FASTER WITH TERRAFORM」。
  • 上記のEditorのコメント通り、TerraformのvalidtionをTerraformの初心者の目線で紹介している。
Not everyone has found devops practices easy to adopt or scale, and there are often tensions within operations teams. This post summarises some of those quite well, even if I don’t believe those issues are inevitable.
  • タイトルは「Operations is not Developer IT」。
  • DevOps、Docker、Kubernetes、各種のベンダーツールの採用により、運用チームに掛かっている負荷が切実に伝わってくる記事。
An interesting thought experiment considering how various large scale incidents with the gigantic AWS us-east-1 region would be handled.
  • タイトルは「Worst Case」。
  • 上記のEditorのコメント通り、AWSの大きな影響力を持つリージョンであるus-east-1 regionに様々な障害が起きた場合の思考実験をしていて面白い。
A look under the hood of distribution software packaging, looking at the far reaching implications and challenges of upgrading OpenSSL to the latest version. Good insight into the tension between centralised distributions and distributed development.
  • タイトルは「The long-term consequences of maintainers’ actions」。
  • OpenSSL 3がAlpineに来たことを朗報として伝えつつ、落とし穴になり得るパッケージの依存性を解説している。
A solid argument that if you’re building a Terraform module you should strive to make it opinionated. Focus on use cases rather than on monolithic modules just around a particular piece of software.
  • タイトルは「Your Terraform Module Needs an Opinion」。
  • Terraformモジュールの在り方について強い意見を持っている筆者が汎用的なスイスアーミーナイフを作成しないこと、複雑なラッパーを作るべきでないことなどを解説している。
Another post on Terraform modules, this one focused on patterns you can adopt to build useful, maintainable modules.
  • タイトルは「Terraform Module Patterns」。
  • 続けてTerraformモジュールの記事。こちらは、適用可能なモジュールを解説しているので、一つ前の記事とセットで読むと良さそう。
  • タイトルは「10 TRENDS IN REAL-WORLD CONTAINER USE」。
  • タイトル通り、以下の10のトレンドを解説している。Datadogらしく見やすく表現されており、それぞれ興味深い。
    1. Nearly 90 percent of Kubernetes users leverage cloud-managed services
    2. Amazon ECS users are shifting to AWS Fargate
    3. The average number of pods per organization has doubled
    4. Host density is 3 times higher on Kubernetes than on Amazon ECS
    5. Pod auto-scaling is becoming more popular
    6. Organizations are deploying more stateful workloads on containers
    7. Organizations running container environments create more monitors
    8. Organizations are starting to replace Docker with containerd as their preferred runtime for Kubernetes
    9. OpenShift adoption is growing rapidly
    10. NGINX, Redis, and Postgres are the top three container images
An interesting interview with one of the founders of Kubernetes, covering some of the original philosophy of the project and other observations about software development.
  • タイトルは「Kubernetes Co-founder Joe Beda: "Software development is a team sport"」。
  • Microsoft時代のInternet Explorerの話、Kubernetes、ワークライフバランスの話など、興味深い話が多いインタビュー。

Tools

A very interesting new user interface for Kubernetes, Kui, mixes the best of CLI and GUI tools. It’s also a framework for building similar tools, so it will be interesting to see if integrations emerge here.
  • グラフィックでCLIを強化するフレームワーク「Kui」のGitHubページ。
Panther is an event consolidation and management application that centralizes and manages events from IT systems, networks and applications in a single console.
  • ITシステム、ネットワーク、およびアプリケーションからのイベントを単一のコンソールで一元化および管理するイベント統合および管理アプリ「Panther」のGitHubページ。
age is a simple, modern and secure file encryption tool, format, and Go library. It features small explicit keys, no config options, and UNIX-style composability.
  • シンプルでモダンで安全なファイル暗号化ツール、フォーマット、およびGoライブラリ「age」のGitHubページ。
Kdigger is a new context discovery tool for Kubernetes, intended for discovery when conducting a penetration test. Nice documentation explaining what and why.
  • Kubernetes侵入テスト用のコンテキスト検出ツール「Kdigger(Kubernetes diggerの略)」のGitHubページ。
  • 紹介ブログはこちら

SRE Weekly Issue #292 October 17th, 2021

Articles

Four lessons every company should learn from the back-to-back Facebook outages

The lessons:

1. Acknowledge human error as a given and aim to compensate for it
2. Conduct blameless post-mortems
3. Avoid the “deadly embrace”
4. Favor decentralized IT architectures

There have been quite a few of these “lessons learned” articles that I’ve passed over, but I feel like this one is worth reading.

Anurag Gupta — Shoreline.io
Niall Murphy

  • 上記のタイトルとEditorのコメント通り、先日のFacebook社の障害から4つの教訓を抽出して解説している。
  • 障害のふりかえりで、以下のような会話ができる文化や組織の雰囲気になっているかは重要。
    • “We’ve already paid for this outage. What benefit can we get from that expenditure?”
Worst Case

Could us-east-1 go away? What might you do about it? Let’s catastrophize!

I love catastrophizing!

Tim Bray

  • 上記のDEVOPS WEEKLY ISSUE #564で取り上げているため、割愛。
What Managed Kubernetes Service is Best for SREs?

When evaluating options, this article focuses on reliability, both of the service itself and the options it provides for building reliable services on it.

Quentin Rousseau — Rootly

This article is published by my sponsor, Rootly, but their sponsorship did not influence its inclusion in this issue.

  • 最も人気のある5つのKubernetesサービス(Amazon EKS、Azure AKS、Google Cloud GKE、SUSE Rancher、Red Hat OpenShift)を調査し、SREの最前線でそれらがどのように活用されているかの概要を解説している。
SRE Toolkit: Failure Domains

This one answers the questions: what are failure domains, and how can we structure them to improve reliability?

brandon willett

  • 筆者が「SRE Toolkit」と名付けた短編シリーズの最初の記事。各エントリは、筆者がソフトウェアをより堅牢にする中で一貫して役立つと分かった概念を親しみやすく紹介していく。
SRE top interview questions to land an SRE role

It’s a great list of questions, and it covers a lot of ground. SREs wear many hats.

Opsera

  • SREの職に就くための備えとして良いリストで、面接する側、現職のSREでクイックに理解度を確かめたい場合にも利用できると思う。
How Time Series Databases Work—and Where They Don’t

I’ve always been curious about how Prometheus and similar time-series DBs compress metric data. Now I know!

Alex Vondrak — Honeycomb

  • 時系列データベース(TSDB)のトピックと、Honeycomb社がTSDBの実装にとどまることができなかった理由を詳細に解説している。
An UPDATE without a WHERE, or something close to it

This one has some unconfirmed (but totally plausible!) deeper details about what might have gone wrong in the Facebook outage, sourced from rumors.

rachelbythebay

  • Facebook社の障害の原因について、先週取り上げた噂とは別の噂が出たため、筆者が取り上げて解説している。
Turning Safety vs. Profits Into a Fair Fight

There’s a really intriguing discussion in here about why organizations might justify a choice of profit at the expense of safety, and how the deck is stacked.

Rob Poston

  • タイトルの内容を「なぜHRO(high reliability organization)のような強力な概念がなぜ病院で広まらないのか?」を切り口に安全性を向上させるステップと課題を解説している。

Outages

上記各社の障害情報。


KubeWeekly #281 October 29th, 2021←KubeCon + CloudNativeCon NA 2021に伴い、2週間お休み


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara