運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#81(2021/8/15~8/20)

The English Version of this blog is here.

この記事は2021/8/15~8/20発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #555 August 15th, 2021
SRE Weekly Issue #283 August 15th, 2021
KubeWeekly #273 August 20th, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #555 August 15th, 2021

News

Lots of interesting software and systems observations in this post. Things now possible with WASMm the perils of abstractions, performance profiling amongst other topics
  • タイトルは「A future for SQL on the web」。
  • WebのストレージAPI(主にIndexedDB)の不条理、SQLiteが10倍のパフォーマンス向上を提供する方法、それを機能させるすべての優れたトリック、それを堅牢にするロック/トランザクションセマンティクスを解説している。
A lot of work is going into improving software supply chain security at the moment. SCIM is a new project proposing an overarching model and specifications around evidence, policy and storage of artefacts and metadata.
  • ハードウェアおよびソフトウェアコンポーネントを含むアーティファクトの継続的な検証をサポートする「Supply Chain Integrity Model (SCIM)」のGitHubページ。Microsoft社のGitHubリポジトリの配下に置かれている。
An interesting tale of debugging a DNS round robin networking issue that nicely points to the complexities of real world client/server applications.
  • タイトルは「SRE Case Study: Mysterious Traffic Imbalance」。2018年11月8日付けの記事。
  • 以前「SRE Weekly Issue #267 April 25th, 2021」で取り上げているので、割愛。
A good discussion of logging policies, with reference to the ACSC (Australian Cyber Security Centre) guidelines, in particular talking about what to log.
  • タイトルは「Gain Security Visibility with System Monitoring」。
  • ビジネスが異なっても共通の根拠として、オーストラリアのACSC(Australian Cyber Security Centre )が提供している「Guidelines for System Monitoring」を用いてポリシーの定義、ログに記録する内容、およびその重要なデータの管理方法に関するスタート地点を以下の項目で解説している。
    • Start with an Event Logging Policy
    • Define Centralised Logging
    • What Events Should I Be Logging?
    • Details, Details, Details. We know what to log, so now what?
    • Sounds like some good information. How do I protect those logs?
    • Now I am capturing the right data; how long do I need to keep it?
    • Got it. Now, what do I do with that mountain of data?
    • Stay safe out there.
A post on SLOs and error budgets, the difference between SLOs and SLAs and how they can be used to improve systems reliability.
  • タイトルは「How SLOs and error budgets improve app reliability」。
  • 上記タイトルとEditorのコメントの内容を以下の項目で解説している。
    • The difference between a service-level agreement and a service-level objective
    • Error budgets help devops teams improve reliability
    • Can SLOs and error budgets change IT’s culture?

Events

A new virtual event, Packaging Con, is coming up November 9th and 10th. It’s billed as a conference for developers of software package management software, as well as software packagers and users.
  • 上記の通り、新たなバーチャルイベントとして「Packaging Con」が2021/11/09-11/10に開催される。
  • CFPは2021/8/31まで。パッケージ管理ソフトウェアの開発者、ソフトウェアパッケージの利用者などが対象。
  • 複数の言語を挙げ、さまざまなエコシステムを統合することを目指している。

Tools

Havener is a slightly higher level CLI tool for interacting with Kubernetes. It aims to provide both richer presentation and avoid some of the very long commands common with kubectl.
  • kubectlの新たなラッパー「Havener」のGitHubページ。上記のEditorのコメント通り、kubectlのコマンドが長くなることを避け、リッチな画面表示を実現している。
  • 現在のコマンドのリンクと説明は以下。
Allstar is a new GitHub App that allows maintainers to opt in to automated enforcement of various security checks against a repository configuration. Branch protection, security policies, mandatory reviews and more are enforced.
  • セキュリティポリシーを設定および適用するために、組織またはリポジトリにインストールするGitHubアプリ「Allstar」のGitHubページ。
  • リスクを伴う可能性がある、またはセキュリティのベストプラクティスに従わない可能性のあるGitHub設定またはリポジトリファイルの内容の継続的な監視および検出を目的としている。
  • GitHubページはこちら
Kubestriker is a new handy security auditing tool for Kubernetes clusters.
  • 構成の誤りによるKubernetesクラスターのセキュリティー問題に取り組むために設計されたツール「Kubestriker」のGitHubページ。
  • プラットフォームに依存せず、セルフホストのkubernetes、Amazon EKS、Azure AKS、Google GKEなど、複数のプラットフォームでさまざまなサービスとオープンポートに対して多数の詳細なチェックを実行する。

SRE Weekly Issue #283 August 15th, 2021

Articles

Moving Quicksilver into production

We needed a way to deploy our new service seamlessly, and to roll back that deploy should something go wrong. Ultimately many, many, things did go wrong, and every bit of failure tolerance put into the system proved to be worth its weight in gold because none of this was visible to customers.

Geoffrey Plouviez — Cloudflare

  • 既存の配布ツール「Kyoto Tycoon」からKVペアの保存と配布を担当するデータストアである「Quicksilver」に移行する過程で得た学びを共有している2020/11/26付けの記事。
The Secret of Communicating Incident Retrospectives

I especially like the idea of tailoring retrospective documents to disparate audiences — you may have more than you realize.

Emily Arnott — Blameless

  • さまざまな利害関係者グループ間でインシデントのふりかえりを調整する方法、そのプロセスにおいて非難のない文化を育む方法、主要な調査結果から変化を推進する方法を解説している。
Demystifying Site Outages

An analysis of two incidents from the venerable John Allspaw. These are from 2012 back when he was at Etsy, and yet there’s still a ton we can learn now by reading them.

John Allspaw — Etsy

  • 上記のEditorコメントのようにJohn Allspaw氏の2012年の記事を引っ張ってきて 学べることがたくさんあるとして共有している。筆者の想いは以下。
    • I wrote this blog post to give you the confidence you deserve that we take outages seriously, are willing to give detailed information about them, and that our aim is to learn from each one in order to lessen the possibility of another in the future.
The Incident Review: 4 Times When Typos Brought Down Critical Systems

Type carefully… or rather, design resilient systems.

JJ Tang — Rootly

  • タイポによる以下4つのインシデントをふりかえっている。
    • The typo that took down Amazon S3
    • When all of your Internet traffic ends up in Atlanta
    • When certificates expire
    • The world of difference between 01 and 10
The SRE as a Diplomat

Requiring development teams to fully own their services can lead to siloing and redundancy. Heroku works to ameliorate that by embedding SREs in development teams.

Johnny Boursiquot — Salesforce (presented at QCon)

  • SREが「外部」の望ましくない影響と見なされた場合の、特定のサービス所有権と運用モデルの意図しない結果、およびそれらのチームとの信頼を構築する方法を解説している。
Making Sense out of Incident Metrics

I’ve shared some articles here suggesting doing away with incident metrics like MTTR entirely. This author says that they are useful, but the numbers must be properly contextualized.

Vanessa Huerta Granda — Learning From Incidents

  • 上記のEditorコメント通り、数字を適切に文脈にあてはめていく重要性を解説している。 以下は結論から。
    • As I experienced, a targeted but holistic focus on metrics not only helped me more clearly demonstrate the business case to others but it helped my organization become more comfortable with the concept of learning from incidents.
Why more incidents is no bad thing

Everything could be fine, or we could failing to report or missing problems altogether — we’re flying blind.

Chris Evans — incident.io

  • タイトル通り、インシデントの意義を解説している。

Outages

上記各社の障害情報


KubeWeekly #273 August 20th, 2021

The Headlines

Editor’s pick of the highlights from the past week.

CNCF LFX projects are open for Fall 2021 – Apply by August 22nd!

We are excited to announce another amazing line up of CNCF projects that will be participating in the Fall Term of LFX – offering full-time, three month internships starting in September. LFX is a platform that enables organizations to offer paid internships and mentorships to developers interested in getting involved in open source projects. Learn more about the internship program and be sure to submit your application by August 22!

  • 上記プロジェクトの2021秋のインターンシップの紹介。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Introducing LitmusChaos 2.0

Karthik Satchitanand, ChaosNative

  • LitmusChaosバージョン2.0を紹介し、アーキテクチャ、機能、およびユースケースについて詳しく解説している約1時間のセッション。
Manage thousands of K8s applications with minimal efforts using KubeCarrier

Jiacheng Xu, Kubermatic

  • KubeCarrier」を使用して、セルフサービスカタログを使用してエンドユーザーへのアプリケーションとサービスのライフサイクル全体を自動的に管理し、クラウド、データセンター、リージョンに関係なく、複数のクラスターにまたがるサービスを簡単に管理する方法を解説している約20分間のセッション。
Crossing the boundary - Hybrid Kubernetes clusters with Wireguard

Andrew Rynhard & Sean McCord, Talos Systems

  • Wireguardを使用して、単一のKubernetesクラスターでネットワークの境界を安全かつ自動的に越える方法を解説している約22分間のセッション。
Meshery - The Service Mesh manager

Lee Calcote & Navendu Pottekkat, Layer5

  • 9つの異なるサービスメッシュをプロビジョニングできるオープンソースのマルチサービスメッシュ管理プレーンである「Meshery」とそのサンプルアプリを紹介し、サービスメッシュデプロイのパフォーマンスをベンチマークしている約40分間のセッション。

Visit our Online Programs playlist on YouTube for more content.


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

kubernetes-sigs/sig-windows-dev-tools

SIG Windows

  • SIG Windows開発環境のGitHubページ。Windows利用でのKubernetes上の完全なユーザビリティーに必要なパーツを含む開発環境を提供。
Scaling on-demand Prometheus servers with sharding

Joe Salisbury, Giant Swarm

  • 1つの管理クラスターと複数のワークロードクラスターで構成されるインストールで、多数のインストールを実行している。
  • ラフな手書き感のある絵が個人的には好き。
monday.com’s Multi-regional architecture: A deep dive

Daniel Mittelman, monday Engineering

  • タイトル通り、マルチリージョンアーキテクチャーに移行した際の背景、設計、作業などを詳細に解説している。
Kubernetes supply chain policy management with Cosign and Kyverno

Jim Bugwadia, Nirmata

  • イメージの署名と検証ツールである「Cosign」をKubernetesポリシーエンジンである「Kyverno」で使用する方法を解説している。
Upgrade to Flux v2 to keep OpenFaaS up to date

Alistair Hey, OpenFaaS

  • Kubernetesクラスターを作成し、Flux V2をインストールして、GitHubアカウントにリンクし、GitOpsアプローチを使用してOpenFaaSと多数のファンクションをデプロイしているチュートリアル。また、イメージリフレクターとオートメーションコントローラーを使用して機能を最新の状態に保つ方法などを詳しく解説している。
Measure and monitor your inlets tunnels with Prometheus

Alex Ellis, blog

  • inlets-pro」の新しいリリース0.9.0の変更点の解説。リリースの詳細に入る前に、inletsがクラウドネイティブトンネルとして構築された理由を解説している。
Audit logging in clusters

Kubermatic blog

  • タイトル通り、Kubernetesのクラスターで監査ログを取得する方法を解説している。


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Telekom (with a K), with Vuk Gojnic

Craig Box, Kubernetes Podcast from Google

Telcos, Edge Clouds, Service Meshes, and more with Prajakta Joshi

Curiefense podcast

  • Google社のGroup Product Manager, Edge Cloud for Enterprise and TelecomであるPrajakta Joshi氏をゲストに迎えた約45分間のPodcastのエピソードとスクリプト。
Open sourcing the SPIFFE/SPIRE security audit

CNCF

  • ごく最近、Cure53社による完了したSPIFFEプロジェクトの一部であるSPIREの監査結果を共有している。
  • 数年前からCNCFは、エコシステムの全体的なセキュリティーを向上させるため、プロジェクトのサードパーティのセキュリティー監査の実行とオープンソーシングを実施している。
Mentorship spotlight: Google Summer of Code 2021 with CNCF — My experience with LitmusChaos

Hemanth Krishna, LitmusChaos Mentee

  • 筆者がGoogle Summer of Code 2021に参加し、オープンソースのカオスエンジニアリングツールである「LitmusChaos」プロジェクトで行った取り組みを共有している。「Sayonara! 👋」の章で締められているが、なぜ日本語を急に使っているのかはわからない。
KEDA moves from the CNCF Sandbox to become an incubating project

CNCF

  • タイトル通り、KEDA(Kubernetes Event-Driven Autoscaling)プロジェクトが、sandboxからincubatingのMaturity Levelに移ったことを紹介し、KEDAの概要を説明している。
CNCF policy-as-code project bridges Kubernetes security gaps

Beth Pariseau, TechTarget

  • タイトルに沿って、Kubernetesポリシーエンジンである「Kyverno」をKubernetes 1.21リリースでベータからdeprecatedになったPSP(Pod Security Policies)に代わってKubernetesのセキュリティーギャップを埋めるものとして解説している。
Take Part 2 of the CNCF Cloud Native Survey today!
  • 先週案内済みの上記サーベイのリマインダー。

Upcoming CNCF Online Programs

Cloud Native Live
Cloud Native Live
On-demand

Looking for more great curated content? Visit our Online Programs playlist on YouTube.

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara