運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#74(2021/6/27)

The English Version of this blog is here.

この記事は2021/6/27発行(KubeWeeklyは今週お休みのため)の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #548 June 27th, 2021
SRE Weekly Issue #276 June 27th, 2021
KubeWeekly #267 ←USの祝日につき、お休み
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #548 June 27th, 2021

News

The Twelve Factor App methodology is 10 years old. But how does it hold it to modern application needs? This post explores each of the factors.
  • タイトルは「Revisiting the Twelve-Factor App Methodology」。
  • 先週のKubeWeekly#266で取り上げているため、割愛。
A post on the need to watch out for the pitfall of counterfactuals when analyzing incidents, with good examples of potential issues.
We’re definitely seeing higher and higher levels of abstraction when it comes to cloud services, but the user interface for developers is still key. A post considering this issue and the influence of Heroku.
  • タイトルは「What AWS Tells Us About Heroku 2.0」。
  • Herokuのこれまでの歩みと、AWSの同領域でのアプローチを対比し、解説している。
The Kyverno policy engine for Kubernetes can be used as a mutating webhook as well as a validating one, which opens up several use cases. This post looks at ensuring pull secrets are available in new namespaces and podspecs.
  • タイトルは「How I tackle Docker Hub rate-limiting policy with a policy engine Kyverno」。
  • タイトル通り、面倒なDocker Hubのレートリミットポリシーを、KyvernoとDocker HubのProアカウントを使用して回避した方法を共有している。
A post on getting Gatekeeper violation information from your Kubernetes cluster into Prometheus and Grafana for improved visibility.
  • タイトルは「Expose Open Policy Agent/Gatekeeper Constraint Violations for Kubernetes Applications with Prometheus and Grafana」。
  • PrometheusおよびGrafanaを使用して、Gatekeeper Constraint Violationの簡潔なビューをプラットフォームユーザーに提供する方法を解説している。

Tools

An online editor and visualisation tool, along with a built-in tutorial, for writing Kubernetes network policies.
Rocky Linux is a new Linux Operating System designed to be a drop-in replacement for CentOS, operating in the same manner CentOS did previously as a downstream project.
  • CentOSの代替としてコミュニティー主導で開発されている「Rocky Linux」のWebページ。
  • GitHubページはこちら
Kube Karp is a handy tool with a specific purpose, to add a floating virtual IP to Kubernetes cluster nodes to make load balancing easy.
  • Kubernetesクラスターノードで共通の仮想IPアドレスを共有して、Kube APIサーバーの自動フェイルオーバーを実現する「Kube Karp」のGitHubページ。クラスター内でDaemonSetとして実行される。

SRE Weekly Issue #276 June 27th, 2021

Articles

@GergelyOrosz on blaming the intern

HBO accidentally sent an email to a bunch of people, and they tweeted (jokingly?) blaming their intern. This is a link to a short, thoughtful response thread.

Gergely Orosz

  • ミスがあった時に、組織として個人が責任を負うとしたら誰が負うべきか、どうシステムでどう食い止めるか、メンターやオンボーディング が機能しているか、を問うている。
The stack overflow of death. How we lost DNS and what we’re doing to prevent this in the future.

This is the story of the Bunny CDN outage linked below. Great read, thanks folks!

Dejan Grofelnik Pelzel — Bunny

  • 上記のEditorのコメント通り、Bunny CDNの障害のふりかえり。トラフィックを動かしたリージョンや判断材料、サポートチケットへの対応状況など、詳細が記載されていて非常に透明性の高い記事。

There’s never a bad time to review the fallacies of distributed computing. This article introduces them with examples and discussion of each.

Alex Diaconu — Ably

  • タイトル通り、以下8つの誤謬(ごびゅう)について、それらが何どういったもので、いかに発生したか、そして信頼できる分散システムを設計するために、それらをいかに乗りこなすかを解説している。
    1. The network is reliable.
    2. Latency is zero.
    3. Bandwidth is infinite.
    4. The network is secure.
    5. Topology doesn't change.
    6. There is one administrator.
    7. Transport cost is zero.
    8. The network is homogeneous.
7 Essential Tools for SREs

These aren’t specific tools, but rather 7 classes of tools (with examples). They are:

* Chaos engineering
* Monitoring and alerting
* Observability
* Paging tools
* SLO management
* Infrastructure-as-Code (and everything-as-code)
* Automated incident response

Quentin Rousseau — Rootly

  • ツールボックスを構築するときにSREが考慮すべき点と、 SREが活用するツールの主要な上記7つのカテゴリについて説明し、それぞれに特定のオプションを提案している。
Designing like a joint cognitive system

Design is interpretive. We have to find common ground before we can even start to create a design, but finding that common ground is part of the design.

For example, we think of building codes as being precise, but when applied to new situations, they are ambiguous, and the engineers must make a judgment about how to apply them.

Lorin Hochstein

  • 上記のEditorのコメント通り、「common ground 」を設計開始前に見つけねばならないのだが、「common ground 」自体が設計が設計の一部であるというジレンマがある。
Resilience in Action E8: Vanessa Yiu on Crafting Enterprise Architecture

This starts with a really neat moment in which the interviewer asks Yiu to talk about lessons from her jewelry-making hobby that she applies to SRE.

Kurt Andersen

  • Podcast「Resilience in Action」のエピソード。PodcastがWebページに埋め込まれており、一部抜粋して書き起こされている。
  • 趣味のジュエリー作りとSREの類似点、エンタープライズアーキテクチャ、SREconなどをテーマに話がされている。非常にポジティブで落ち着いた語り口で、聞いていてポジョティブな気持ちになった。
r/WallStreetBets Incident Anthology: Reddit’s Open Systems

When Gamestop’s stock shot through the roof earlier this year, Reddit’s traffic did too. This is the first article in a short series by Reddit’s SRE team on how they handled the influx.

This article is about the ways that user actions affected their systems in unexpected ways, and how they responded.

Courtney Wang — Reddit

  • 上記のEditorのコメントに、私から伝えたいことが全て含まれている。このシリーズの他の記事もチェックを。
SRE Cultural Values

Recently in our Site Reliability Engineering organization in Azure, we established a set of cultural values that we hold ourselves and each other accountable to.

Bill Johnson — Microsoft

  • 上記のタイトルと記事からの抜粋通り、以下のSREとしてのCultural ValuesをMicrosoft社のAzureのSRE組織で決めた、として共有している。共感した人向けに採用情報もセットでリンクされている。
    • We Are Intentional
    • We Are Kind
    • We Are Brave
    • We Are Infinitely Curious

Outages

上記各社の障害情報


KubeWeekly #267 ←USの祝日につき、お休み


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara