運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#88(2021/10/3~10/8)

The English Version of this blog is here.

この記事は2021/10/3~10/8発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #562 October 3rd, 2021
SRE Weekly Issue #290 October 3rd, 2021
KubeWeekly #280 October 8th, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #562 October 3rd, 2021

News

A solid argument for a more specific definition of observability, and why the definition matters to solving the problems at hand.
  • タイトルは「Observability: The 5-Year Retrospective」。
  • タイトルの内容について、以下のポイントで解説している。
    • From the mouths of Tweeters: Observability vs. Monitoring
    • A historical taxonomy of definitions for observability
    • Observability as defined by what you can actually do with it
    • Observability must be a clear concept
A post on data-center scope monitoring, including the evolution from SNMP-based systems to streaming telemetry.
  • タイトルは「Expanding the Observable Universe🌌 (or Scalable Model-Driven Telemetry with SR Linux Custom Agents and gNMI)」。
  • タイトルの内容を以下のポイントで図などを交えて解説している。
    • Streaming Telemetry
    • Periodic sampling versus “on change” events
    • Custom conditional “on change” alerts using agents
    • Custom agents: Edge computing for data centers
    • Prototype: The SRL Docter Agent
    • Expanding your adjacent possible with SR Linux
A post on the concept of zero trust supply chain security, with a full worked example using cosign and sigstore.
  • タイトルは「Zero Trust Supply Chain Security」。
  • 上記のEditorのコメント通り、cosignとsigstoreを利用した例を以下のポイントで解説している。冒頭の道端に落ちているUSBとdocker pullnpm install の対比はイメージしやすい。
    • Background
    • Zero Trust
    • Getting Started
    • The Pieces
    • Tracing a Container
    • Wrapping Up
A quick introduction to SLOs and SLIs and why you should care about them. Nice quick tips as well on where to start out.
  • タイトルは「SLOs and why you should care」。
  • SREの原則と共に以下のポイントでタイトルの内容を解説している。
    • Ok great …. and why should I care?
    • Hmm … sounds interesting … where to start?
    • Latency
    • Traffic
    • Errors
    • Saturation
    • Happy SLO’ing!
A post filled with hard one observations and recommendations for improving the operability of a legacy application.
  • タイトルは「Production issues: the owl effect」。
  • タイトルにある「Owl effect」:システムに潜んでいる小さなバグが気づかないこと、をテーマに以下のポイントで解説している。
    • A — On the road to a good mindset
    • B — How to scale your application?
    • C — Main lessons learned
If you’re working with Kubernetes you’re likely to be familiar with the kubectl command line tool. kubectl supports a plugin mechanism, and there are quite a few handy plugins for administrators covered in this post.
  • タイトルは「Making Kubernetes Operations Easy with kubectl Plugins」。
  • kubectlを拡張するサブコマンドのプラグインを紹介している。
  • より多くのプラグインをチェックした場合はGitHubの「awesome-kubectl-plugins」リポジトリへ

Tools

Connaisseur is a Kubernetes admission controller that integrates container image signature verification and trust pinning into a cluster. Under the hood it supports Notary V1 and Sigstore for signing.
  • コンテナイメージの署名検証と信頼の固定をKubernetesクラスターに統合するアドミッションコントローラ「Connaisseur」のGitHubページ。
  • 見覚えがあると思ったら、以前に「KubeWeekly #270 July 30th, 2021」でバージョン2.0リリースを取り上げていた。2021/10/03時点ではv2.1.2が最新バージョン。
Damon is a terminal user interface for Nomad. It provides functionality to observe and interact with Nomad resources such as Jobs, Deployments, or Allocations.
  • 上記の通りNomadのターミナルユーザーインターフェイスである「Damon 」のGitHubページ。
Automated Cloud Advisor is a tool for facilitating cost optimization in AWS, by collecting data for resources that are under utilized.
  • 使用率が低いリソースのデータを収集し、AWSのコスト最適化を促進する拡張可能なツール「Automated Cloud Advisor」のWebページ。
  • GitHubページはこちら
Tremors is an event processing system for unstructured data with rich support for structural pattern-matching, filtering and transformation with features like aggregation, rollups, an ETL language, and a built-in query language.
  • 上記の通り、構造パターンマッチング、フィルタリング、変換をリッチにサポートする非構造化データの初期段階のイベント処理システム「Tremors」プロジェクトのGitHubページ。
  • Webページはこちら
  • こちらも見覚えがあると思ったら、以前「Tremor Con 2021」をイベント情報として紹介していた。
A new version of the Puppet Development Kit is in the works, providing a new set of tools for Puppet developers, starting out with Puppet Content Templates.
  • 「Puppet Content Templates (PCT)」のGitHubページ。
  • 現在は「EXPERIMENTAL」のフェーズなので検証、使用する場合は要注意。

SRE Weekly Issue #290 October 3rd, 2021

Articles

Postmortem: Partial RavenDB Cloud outage

Despite carefully testing how they would handle this week’s expiration of the root CA that cross-signed Let’s Encrypt’s CA certificate, they had an outage. The reason? Poor behavior in OpenSSL. See the next article for a deeper explanation of what went wrong with OpenSSL.

Oren Eini — RavenDB

  • 2021/9/24に筆者が体験したタイトルと上記Editorのコメントにある内容のポストモーテム。
Path Building vs Path Verifying: The Chain of Pain

This article explains why some versions of OpenSSL are unable to validate certificates issued by Let’s Encrypt now, even though the certificates should be considered valid.

Ryan Sleevi

  • self-signed AddTrust External CA Root certificate」の有効期限切れによる筆者の想定以上の影響に伴い、関係するいくつかのオープンソースライブラリ、問題が発生した理由、問題が解決しない理由について以下のポイントで詳しく解説している。2020/06/24の記事。
    • Understanding The Problem
    • How to Avoid the Problem
    • More Ways to Go Wrong
    • Key Elements of a Successful Implementation
    • Built for the Internet
    • Open Source Roundup
Stop adopting multicloud to achieve application resilience, says Honeycomb’s Charity Majors

This says it all:

It turns out that the path to safety isn’t increased complexity.

Matt Asay — TechRepublic

  • マルチクラウドを採用する理由がタイトルにあるものであった場合に、そのアイデアが「Making hard things even harder」であることなどを簡潔に解説をしている。
Reliability is not an engineering metric

The thrust of this article is that reliability applies to and should matter to the entire company, not just engineering. I really like the term “pitchfork alerting”.

Robert Ross — FireHydrant

  • 筆者の結論は「Reliability is a business metric.」。
How HTTP Keep-Alive can cause TCP race condition

Lesson learned: always make your application server’s timeout longer than your reverse proxy’s.

Ivan Velichko

  • HTTPで502を返すタイトルの事象がなぜ発生するのか、そして対処法を解説している。TL;DRは以下。
    • TL;DR: HTTP Keep-Alive between a reverse proxy and an upstream server combined with some misfortunate downstream- and upstream-side timeout settings can make clients receiving HTTP 502s from the proxy.
The strange beauty of strange loop failure modes

Who deploys the deploy tool? The deploy tool, obviously — unless it’s down.

Lorin Hochstein

  • 上記のEditorのコメント通り、デプロイツールがダウンした場合にデプロイを実行するための代替案としてSpinnaker UIを使ってロールバックする方法を持っていること、練習を積んでおくことなどのその大切さを解説している。
Partitioning GitHub’s relational databases to handle scale

Their approach: group tables into “schema domains”, make sure that queries don’t span schema domains, and then move a schema domain to its own separate database cluster.

Thomas Maurer — GitHub

  • 10年以上前にRuby on Rails上に構築された、ほとんどのデータを格納する単一のMySQLデータベースにより、直面した成長と可用性の課題に対応した話。2019年よりツールとリレーショナルデータベースをパーティショニング機能の改善計画を実行したことを解説している。
Groot: eBay’s Event-graph-based Approach for Root Cause Analysis

Groot is about helping figure out what’s wrong during an incident, not about analyzing an incident after the fact. I totally get why they need this tool, since they have over 5000 microservices!

Hanzhang Wang — eBay

  • さまざまなインシデントトリアージシナリオ全体で優れたカバレッジとパフォーマンスを実現し、他の最先端の根本原因分析手法よりも優れているフレームワーク「Groot」を紹介している。
SRE is not a monolithic role

SRE is a broad, overarching responsibility that needs a multitude of role considerations to pull off properly.

Ash P — Cruform

  • SREに対してシニアのステークホルダーの間で広がっている誤解に反論している。

Outages

  • Heroku
    (also this one)Heroku had a major outage that coincided with an Amazon EBS failure in a single availability zone in us-east1. Customers of Heroku such as Dead Man’s Snitch were impacted.
  • Slack
    Slack had a big disruption related to DNSSEC. Here’s an interesting analysis of what may have gone wrong (link).
  • Let’s Encrypt
    Let’s Encrypt saw heavy traffic as everyone clamored to renew their certificates, causing certificate issuance to slow down.
  • Microsoft 365
  • Apple’s “Find My” service
  • Signal
  • Xero
    This one coincided with the same Amazon EBS outage mentioned above. Xero also had another outage on October 1.

上記各社の障害情報。


KubeWeekly #280 October 8th, 2021

The Headlines

Editor’s pick of the highlights from the past week.

Last chance to register for KubeCon + CloudNativeCon North America!

This fall’s biggest event is almost here, KubeCon + CloudNativeCon North America 2021 at the Los Angeles Convention Center (LACC) or virtually from anywhere in the world.

Did you know that this year’s event will bring together 200+ sessions, 70+ project maintainer presentations, 12 cloud native tracks, and 29 co-located events? Not to mention a variety of experiences including diversity and inclusion and interactive sessions (with both in-person and virtual options.)

Get ahead of the game and begin planning your schedule today! Not registered yet? Don’t worry, there is still space available! Check out your in-person and virtual options.

Please note: KubeWeekly will be on a brief break next week for KubeCon + CloudNativeCon North America 2021 and the week after. We will resume publishing on October 29.

  • いよいよKubeCon + CloudNativeCon North America 2021が開催される。どのセッション、プレゼン、イベントに参加するかスケジュールをまだ組んでいない方はお早めに。はい、私もまだです。
  • 上記の通り、KubeWeeklyはKubeCon + CloudNativeCon North America 2021の前後2週間休みを取るため、再開は10/29。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Kubernetes 1.22 release

Savitha Raghunathan, James Laverack, & Jesse Butler, Kubernetes 1.22 Release Team

  • Kubernetes1.22のリリースの重要な変更や新機能や、プロジェクト全体のニュースやアップデートを解説している約68分間のセッション。
Next generation observability using open source monitoring

Scott Fulton, Opscruise

  • タイトルに沿って以下3つのポイントでオープンソースを利用して可観測性を得る方法を解説している約61分間のセッション。
    1. Get deep insights into your application from open-source CNCF monitoring
    2. Leverage real-time analytics for proactively detecting, isolating and resolving problems, and
    3. Learn how Ops teams can stay on top of your modern applications and infrastructure


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Global load balancer approaches

Sanjeev Rampal and Raffaele Spazzoli, Red Hat

  • マルチクラスター(ハイブリッドクラウドの可能性あり)デプロイメントでKubernetesまたはOpenShiftを使用する場合の考慮事項の1つに対する提案。これらのクラスター全体にデプロイされたアプリケーションにトラフィックを転送方法としてクローバルロードバランサーを解説している。
Announcing Linkerd 2.11: Policy, gRPC retries, performance improvements, and more!

William Morgan, Linkerd

  • Linkerd 2.11のリリースに伴い、Thursday, Oct 23rd, 9am PT.に開催されるfree Upgrading to Linkerd 2.11 workshopを紹介し、今回の変更点と今後について解説している。
Making Kubernetes operations easy with kubectl plugins

Martin Heinz

  • 上記DEVOPS WEEKLY #562で取り上げているため、割愛。


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Flux October 2021 update

Daniel Holbach, Flux

  • Fluxの10月のアップデート。9月のリキャップとして、以下の項目で解説している。
    • Flux Project Facts
    • News in the Flux family
    • Upcoming events
    • In other news
    • Over and out
Do your demos like a boss at KubeCon

Alex Ellis

  • ライブカンファレンスのデモの起源、それらを最もうまくやっている人たち、ローカルホストへのトラフィックがあることが有益である理由、そしてローカルアプリケーションに実際のトラフィックを取り込む方法を簡単に解説している。
Services don’t have to be eight-9s reliable, with Liz Fong-Jones

Kongcast

  • SLOのエラーバジェットの概念を紹介し、可観測性を備えたソフトウェア配信を高速化する方法を解説している約38分間のPodcastのセッション。
Kubernetes cluster API reaches production readiness with version 1.0

Cluster API team

  • Cluster API v1.0が本番環境に対応し、正式にv1beta1APIに移行の発表と解説。FAQのコーナーで参照すべき情報、今後についても簡単に解説している。

Upcoming CNCF Online Programs

No Online Programs will be hosted next week due to KubeCon + CloudNativeCon North America 2021! We hope to see you there.

Looking for more great curated content? Visit our Online Programs playlist on YouTube.

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara