運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#71(2021/6/6~6/11)

The English Version of this blog is here.

この記事は2021/6/6~2021/6/11発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #545 June 6th, 2021
SRE Weekly Issue #273 June 6th, 2021
KubeWeekly #265 June 11th, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #545 June 6th, 2021

News


An excellent post on building a healthy on-call culture for developers. Lots of concrete advice, centered on respecting engineers and their time.
  • タイトルは「Building a Healthy On-Call Culture」。
  • 上記のEditorのコメント通り、最適なオンコールの頻度、ローテーションの人数、引き継ぎの目安時間など、とても具体的なアドバイスに富んでいて素晴らしい記事。
ProtoBuf API v2 has some large performance implications. This post is a good primer, as well as a look at how one project solved the problem with a project-specific code generator.
  • タイトルは「A new Protocol Buffers generator for Go」。
  • VitessのProtocol Buffersとの付き合い、パフォーマンスチューニング、ベンチマークなどが見れる記事。
Is an AWS account a security boundary? This post digs into the details, showing a large number of ways services cross accounts.
  • タイトルは「AWS Accounts as Security Boundaries — 97+Ways Data Can be Shared Across Accounts」。
  • AWSのアカウント自体がセキュリティ境界として機能することを前提としたアカウント戦略と、各サービスとそれらのデータを AWS アカウント間で共有する方法を解説している。
  • GitHub上のリストはこちらスプレッドシート版はこちら
Moving from a monolithic architecture to one based on many services often means having to distribute authorization. This post explores how one organization used humeji.
  • タイトルは「Himeji: A Scalable Centralized System for Authorization at Airbnb」。
  • Airbnb社の Zanzibarベースの認可システムである「Himeji」を紹介している。図にある「Himeji Cache」がどうしても、「Himeji Castle」に見えてしまう。
Some useful tips for building usable monitoring dashboards.
  • タイトルは「[MONITORING] How to build your monitoring dashboards?」。
  • 以下の2つのStrategyを対比してモニタリングダッシュボードの作り方を案内している。
    • Strategy 1: Yeah, I do not know. We have metrics, we plot metrics
    • Strategy 2: Overview. Top-down. Left-right. Cohesive. Consistent.
A post on the benefits of being able to repave a datacenter, including tips on how to get started.
  • タイトルは「IS REPAVING DATA CENTERS THE WAY TO BETTER ROI?」。
  • 以下の項目で簡潔にタイトルの内容について論じている。
    • Why Repave Your Data Center?
    • IT Ops become Innovation Leaders Instead of Blockers
    • Planning Considerations
    • It’s OK to Start Small
    • Real Talk
A look at a toolchain for building and publishing container images, using GitHub Actions and ECR. It’s a good example of the trade off between complexity and secure tool chains with current tooling.

Tools

Managing tags for cloud resources is critical but also a pretty thankless task. Yor is a new tool to help, that integrates with infrastructure as code and is intended for use in a CI pipeline.
  • Terraform、CloudFormation、Serverless などのInfrastructure-as-Code フレームワーク全体に有益で一貫性のあるタグを追加するのに役立つオープンソースツール「Yor」のGitHubページ。
  • Webページはこちら

SRE Weekly Issue #273 June 6th, 2021

Articles

Incident Management vs. Incident Response

What indeed? It depends on who you ask.

Quentin Rousseau — Rootly

  • インシデント管理(Management)とインシデント対応(Response)のいくつかの競合する視点での類似点と相違点、およびさまざまな視点から SRE が学べることを解説している。
Cores that don’t count

This academic paper explains Google’s efforts toward identifying “mercurial” CPU cores — cores that make erroneous computations.

[…] we observe on the order of a few mercurial cores per several thousand machines […]

This one blew my mind:

A deterministic AES mis-computation, which was “selfinverting”: encrypting and decrypting on the same core yielded the identity function, but decryption elsewhere yielded gibberish.

Peter H. Hochschild, Paul Turner, Jeffrey C. Mogul, Rama Govindaraju, Parthasarathy Ranganathan, David E. Culler, and Amin Vahdat — Google

  • 上記の通り、Google社が出している8ページの学術論文。Mercurial core、CEEs(Corrupt Execution Errors)を中心に、Abstract以降は以下の構成で論じられている。
    1. Introduction
    2. Impacts of mercurial cores
    3. Are mercurial cores a novel problem?
    4. The right metrics
    5. What causes mercurial cores?
    6. Detecting and isolating mercurial cores
    7. Mitigating CEEs
    8. Related work
    9. Next steps and research directions
Minimizing ossification risk is everyone’s responsibility

The decisions, non-decisions, and workarounds that we implement now can have lasting effects on the Internet as a whole.

Mark Nottingham — Fastly
Full disclosure: Fastly is my employer.

  • タイトルに沿って、固定化を最小限に抑えることで、インターネットがスムーズに進化し続け、将来の課題に対応できるようになることを具体例を挙げながら解説している。
What is resilience engineering? A lightning talk with background information

A great intro to the topic of resilience engineering. Hint: resilience != high availability.

Piet van Dongen — Luminis Arnhem

  • レジリエンスエンジニアリングとは何か、すべてのソフトウェア担当者がそれを知っておくべき理由、そしてどのようにそれを実践し始めるかを解説しているLTの背景情報や参考情報も含めた、まとめ記事。
  • 該当の約11分間のLT動画と、他の参考となる動画も埋め込まれている。
Dealing with new kinds of trouble

When you include people in your definition of “the system”, something that looked like a system failure where humans had to “step in” is actually a success in which the system adapted.

Lorin Hochstein

Please don’t count outages (or SEVs, or whatever)

I find the way this author presented this argument especially convincing. My favorite part is the real-world story toward the end.

Rachel by the Bay

How Facebook deals with PCIe faults to keep our data centers running reliably

Facebook presents their method for finding and dealing with PCIe errors in their infrastructure.

Ashwin Poojary, Bill Holland, Makan Diarra, and Ray Park — Facebook

  • 上記のEditorコメントと、タイトル通り、PCIe(Peripheral component interconnect express)起因のエラーへの対処法として社内のツール群やワークフローなどを解説している。
GitHub Availability Report: May 2021

Overflow of a 32-bit integer primary key caused a security issue.

Scott Sanders — GitHub

  • GitHub社の月次の「Availability Report」の5月分。5月に発生した2件のインシデントの事象、対応、対策などが解説されている。
Building a Healthy On-Call Culture

This caught my eye. I’ve seldom been in an on-call rotation with shifts that were not a week or two at a time.

The optimal frequency for being on call is about three days a month.

There’s also a good discussion of paying for on-call shifts, which, in my experience, goes a long way toward making on-call more palatable.

Christine Patton — SoundCloud

  • 上記のDEVOPS WEEKLY ISSUE#545で取り上げているため、割愛。

Outages

上記各社の障害情報


KubeWeekly #265 June 11th, 2021

The Headlines

Editor’s pick of the highlights from the past week.

f:id:Yoshiki0705:20210612161359p:plain

CloudNative TV launched this week!

We are now one week into launch of CloudNative.tv. The launch includes shows ranging from 101 explainers, to getting started contributing to projects, and highlighting the unique people that make up the CNCF’s community of doers. Week two will bring you the rest of our hosts including Solid State with Tim Banks, Cloud Native LatinX with Leonardo Murillo, CNCFaceOff with Matt Stratton, and Certs Magic with Saiyam Pathak. You can find the whole schedule here.

  • 先週紹介されていた「CloudNative TV」がスタートしたことと、プログラムのスケジュールの紹介。

Editor's note: In observance of the Juneteenth holiday, there will be no KubeWeekly on June 18, 2021. We will resume publishing on June 25, 2021.

  • 来週は祝日につき、KubeWeeklyがお休み。こうした情報が事前にもらえのは、個人的にありがたい。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Use your favorite programming language to build your dream cloud native platform

Matt Stratton, Pulumi

  • Pulumiのサービスを使って、Kubernetesでアプリをすばやく起動して実行するコード(Typescript)をライブコーディングしている約1時間のセッション。
Tackling Customer Issues in cloud native environments

Elinor Swery, Rookout

  • チームがクラウド環境で顧客の問題をより効果的に管理できるようにするため、エンジニアリングマネージャーが採用できるさまざまな方法と戦略を解説している約30分のセッション。
Cloud native policy enforcement with Open Policy Agent

Anders Eknert, Styra

  • OPA(Open Policy Agent)がクラウドネイティブスタックで大規模なPolicy Decisionを実施するのにどのように役立つかを解説している約34分のセッション。
Persist your data in an ephemeral K8s ecosystem

Eric Zietlow, MayaData

  • Kubernetesをデータに使用する対象、理由、方法を解説している約14分のセッション。


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

A new protocol buffers generator for Go

Vicent Marti, Vitess

  • 上記DEVOPS WEEKLY ISSUE #545で取り上げているため、割愛。
A deep dive into Kubernetes Schema Validation

datree.io blog

  • 設定ミスを回避する方法と、どのツールを使用するのが最適かを解説している。スキーマのバリデーションテストの重要性と、早い段階での実施を説いている。
I wrote a Twitter Bot using OpenFaaS to avoid missing out on CfP deadlines

Carlos Panato, OpenFaaS

  • ボットを組み立てる方法と、独自のツールを作成して独自のプロジェクトのアイデアを得るために使用したツールを解説している。
Learn how to manage your functions with kubectl

Alex Ellis, OpenFaaS

  • Kubernetesで関数をデプロイおよび管理するためのOpenFaaS APIおよびCLIの代替方法を解説している。
“Gateway Mode” in Kuma and Kong Mesh

Cody De Arkland, Kong

  • Kong Gateway、Kuma、Kong Meshの製品間の関係と、それらを一緒に使用する方法について簡単に解説している。
  • Webページに約6分の解説動画も埋め込まれている。


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

In the Clouds (S2E6) | CNCF’s Priyanka Sharma

Chris Short, Red Hat

  • CNCFのGM Priyanka Sharma氏をゲストに迎えてCNCFについて始まりの経緯から解説している約50分のセッション。私がCNDO 2021 Springで行ったセッションの上位互換の内容。 
  • 今まで見たPriyanka Sharma氏のインタビュー動画の中で、最もリラックスして話されている印象。
Cloud-agnostic third party managed Kubernetes services – the unexploited opportunity

Lars Larsson, Elastisys

  • 現状に挑戦する以下5つの理由と、クラウドにとらわれないマネージドKubernetesサービスの可能性とあるべき姿を解説している。
    1. Ensure business continuity by letting a managed service provider handle your Kubernetes-based platform
    2. Increase ability to target new markets, even ones that require you to run on-premise (or just not at a major cloud provider).
    3. Increase process efficiency and minimize risk by reducing tool sprawl - in spite of deploying to multiple clouds.
    4. Make migration much easier, because not just your application, but also your platform, is cloud agnostic.
    5. Contribute to the cloud native community by being the community.
Introducing Kubernetes Community Days Bengaluru 2021

Neependra Khare, founder of CloudYuga and CNCF Ambassador

  • 2021/06/25-26に開催される上記イベントの紹介記事。去年の開催がパンデミックの影響によりキャンセルとなったが、今年はバーチャル開催される。
  • 登録はこちらから
Harbor operator 1.0 is available now!

Harbor project team

  • タイトル通り、Harbor operator 1.0のGAにあわせてコントリビューターへの感謝を伝え、現在の機能、今後の追加機能、ロードマップ、Harborプロジェクトなどを紹介している。
Reminder: Take the CNCF Cloud Native Survey - Part 1 to share your thoughts on cloud, containers, and Kubernetes.
  • 引き続き「CNCF Cloud Native Survey - Part 1」のリマインダー。

Upcoming CNCF Online Programs

Cloud Native Live
On-demand Webinars

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara