運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#32(9/6~9/11)

この記事は2020/9/6~9/11に発行された下記3つのWeekly Reportを読み、備忘録兼リンク集として残したものです。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #506 September 6th, 2020
SRE Weekly Issue #234 September 6th, 2020
KubeWeekly #232 September 11th, 2020

English Version of this blow is here.

  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2019年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #506 September 6th, 2020

News

A good inside view of a series of incidents. Load balancer firmware, network connectivity issues and how it feels to be on the other side of an emerging incident.
  • タイトルは「Inside a CODE RED: Network Edition」。
  • Basecamp社による3つの障害について、ふりかえっている記事。
  • 筆者の同僚Jeremy氏よりも深く、舞台裏での個人的な視点に基づいている。
  • 読者は、障害に関するより深い技術的な理解に関心がある方、Basecamp社でのインシデント管理の人間側への洞察に関心がある方、両方を対象としている。
A set of principles for managing feature toggles in teams, from making them visible to ensuring they are short lived.
  • タイトルは「Managing feature toggles in teams」。
  • トランクベース開発(trunk-based development/TBD)をテーマに、feature toggleの効果的な使用と効果的でないトグルを区別する以下6つの主要な属性を検討している。
    1. Feature toggles should be flippable
    2. Feature toggles should be used by default
    3. Feature toggles should be added per story
    4. Feature toggles should be visible
    5. Feature toggles should be short-lived
    6. Feature toggles should be tested
  • 私はGitFlow派で、現状に大きな課題やTBDに大きなメリットが見えていないので、あまり内容を深掘りできませんでした。TBDにハマった人、詳しい人がいれば教えて欲しいです。
A discussion of complex adaptive systems in relation to IT service management. Interesting points about the importance of constraint to limit negative emergent behaviour.
  • タイトルは「Complex Adaptive Systems (ii): thinking about emergence and ITSM」。
  • 「Coplex Adaptive Systems」をテーマに、Complexity ScienceとITSMの文脈での複雑な適応システムの概念を検討するシリーズのパート2。
  • 登場する概念の入門的な内容であるパート1はこちら
Devops Days made a comeback in Chicago, with an online version. Talks on resilience engineering, growing a local devops community, chaos engineering as well as ignites and breakouts.
  • タイトルは「DevOpsDays Chicago 2020 Wrapup」。
  • 9/1に実施されたオンライン開催のイベントDevOpsDays Chicago 2020を筆者であるRich Burroughs氏のツイートを引用しながら解説しているまとめ記事。
Tips for using third party software packages and images from public repositories, including considering availability, rebuilding from source and local caches.
  • タイトルは「Consuming Upstream Content in Your Software or Service」。
  • 開発者がより多くのアップストリームコンテンツに貢献し、利用している現状に触れ、エコシステム全体、プロジェクト、プロダクト、またはサービスを保護する必要性を解説している記事。
Open Policy Agent is powerful, but like any new tool has a learning curve. This 30 minute tutorial takes you through learning the basics of the Rego language.
  • タイトルは「Courses on Unified Policy」。
  • Styra社によるOPAの無料コース。30の動画付きレッスンとクイズなどが含まれている。アカウント登録をすると、すぐに始められる。
  • OPAのco-creator、Styra社のCTO & co-founderであるTim Hinrichs氏がわかりやすいスライドを使って解説していて良い。
An excellent introduction to the basics of Kubernetes, covering core components, the general architecture and deploying your first applications.
  • タイトルは「Kubernetes 101」。
  • Kubernetesの入門用の内容がまとまっている記事。
  • 前半に複数回出てくる広告が、記事を読んでいく上で個人的にとても煩わしく思いました。丁寧に解説されているので、そこが残念でした。

Tools

oso is an open source policy engine for authorization that you can embed in your Java, Python, Ruby or Node application. It provides a consistent DSL and some good getting started documentation.
  • アプリケーションに組み込まれた承認用のオープンソースポリシーエンジンである「oso」のGitHubページ。
  • 承認ロジックを表現するための宣言型ポリシー言語を提供する。
  • osoを使用するには下記の2つを実行する
    1. Writing oso policies in a declarative policy language called Polar
    2. Embedding oso in your application using the appropriate language-specific authorization library
Gitleaks is a handy tool for detecting secrets in Git repositories, with integration with GitHub Actions and the ability to scan all repos in an organisation.
  • Gitのリポジトリでパスワード、APIキー、トークンなどのハードコードされたsecretを検出するためのSASTツール「Gitleaks」のGitHubページ。
  • コードの過去または現在のsecretを見つけるための、使いやすいオールインワンソリューションを目指している。
Continuous Machine Learning (CML) is an open-source library for CI/CD in machine learning projects. Automate model training and evaluation, comparing ML experiments across your project history, and monitoring changing datasets.
  • 機械学習プロジェクトでCI/CDを実装するためのオープンソースライブラリである「 CM(Continuous Machine Learning))」のGitHubページ。
  • モデルのトレーニングと評価、プロジェクト履歴全体でのML実験の比較、変化するデータセットのモニタリングなど、開発ワークフローの一部を自動化する。

SRE Weekly Issue #234 September 6th, 2020

Articles

How to Build Your SRE Team

I love the way this article portrays SRE by placing less emphasis on specific skills and more on a holistic approach to reliability.

Emily Arnott — Blameless

  • SREが果たすことができる多くの役割のいくつかと、それらのスキルセットを持つ人々を見つける方法を以下のポイントで説明している。
    • Common pathways to becoming an SRE
    • SREs as engineers of reliability
    • SREs as stewards of reliability
    • SREs as leaders who align reliability with business needs
    • SREs as ambassadors of reliability culture
    • Common team structures
Incident Reviews in High-Hazard Industries: Sense Making and Learning Under Ambiguity and Accountability

Incident review is an important part of the organizational learning process, but it can be practiced in a way where the focus shifts away from learning to fixing.

John Carrol (original paper)
Thai Wood — Resilience Roundup (summary)

  • 上記タイトルの原子力発電所に関する論文を取り上げ、「ソフトウェアはいくつかの点で独特だが、インシデントから学習しようとすると、他の複雑な社会技術システムと同じ制約を受け、同様の問題が発生する」として以下の問題を解説している。
    • Root cause seduction
    • Sharp end focus
    • Solution driven searches
    • Account adaptability
AD 0001

My latest adventures in (negligently) running sreweekly.com. It started with a surprise AWS bill, and then it got kinda weird…

Lex Neva

  • SRE Weeklyの編集者であるLex Neva氏のブログ投稿。
  • 以下の自身のサイトへの皮肉から始まり、先月AWSの請求が2倍になっていたので、少額には違いなかったが興味を持ったので喜んで深掘りして記事にした経緯と結果が語られている。
    • The not-so-subtle irony of SRE Weekly is that sreweekly.com itself is really not very reliable at all[1].
    • [1] Please don’t DDoS sreweekly.com. Please! It’s not funny and you’ll just make me sad. ♥
Inside a CODE RED: Network Edition

Deep technical details on a series of recent incidents involving Basecamp.

Troy Toman — Basecamp

  • 上記DEVOPS WEEKLY ISSUE #506で取り上げているので、割愛します。
Questionable Advice: War Rooms? Really?!?

Here’s why eyes-on-glass constant monitoring won’t help and can be actively harmful.

Charity Majors

  • 匿名の質問に対して筆者の考えをまとめている記事。
  • 質問者は「command centers」と表現するようなグラフ、モニターを作って1日中問題のあるアプリとチームを監視するチームを作り、人を投入する様に会社からプレッシャーを受けている。筆者は、そのアイデアに批判的であり、以下の意見を述べている。
    • That extra human layer is worse than useless; it is actively harmful. By insulating developers from the consequences of their actions, you are concealing from them the information they need to understand the consequences of their actions. You are interfering with the most basic of feedback loops and causing it to malfunction.

    • The best time to find a bug is as soon as possible after writing it, while it’s all fresh in your head. If you let it fester for days, weeks, or months, it will be exponentially more challenging to find and solve. And the best people to find those bugs are the people who wrote them.

GitHub Availability Report: August 2020

In August, we experienced no incidents resulting in service downtime. This month’s GitHub Availability Report will dive into updates to the GitHub Status Page and provide follow-up details on how we’ve addressed the incident mentioned in July’s report.

Keith Ballinger — GitHub

  • GitHub社が毎月出している「GitHub Availability Report: August 2020」の8月ふりかえり分。
  • 8月には、サービスのダウンタイムにつながるインシデントは発生しなかったため、GitHubステータスページの最新情報を取り上げ、7月のレポートで言及されたインシデントへの対処方法に関するフォローアップの詳細を提供している。
Analysis of Today’s CenturyLink/Level(3) Outage

Here are Cloudflare’s thoughts on what happened with Sunday’s Internet trouble.

Matthew Prince — Cloudflare

  • Cloudflare社が、2020/08/30に発生したCenturyLink/Level(3)社の障害を分析している記事。
  • Cloudflare社のユーザーも影響を受けており、障害の時系列、Cloudfralareとして取った緩和策、考えられる障害の根本原因などを記載している。

This is ThousandEyes’s analysis of the outage, which goes along similar lines to Cloudflare’s and includes a lot more detail.

Angelique Medina and Archana Kesavan — ThousandEyes

  • ThousandEyes社が、2020/08/30に発生したCenturyLink/Level(3)社の障害を分析している記事。
  • 障害の根本原因、インタラクティブな可視化モニター、各種モニター、サービス影響、各社が取った緩和策、障害から得られた教訓などを記載している。

Outages

上記各社の障害情報

KubeWeekly #232 September 11th

The Headlines

Editor’s pick of the highlights from the past week.

CNCF launches End User Technology Radar: Observability, September 2020

Today, CNCF is publishing the second of our quarterly CNCF End User Technology Radars; the topic for this Technology Radar is observability.

In June, we launched the CNCF End User Technology Radar, a new initiative from the CNCF End User Community. This is a group of more than 140 top companies and startups who meet regularly to discuss challenges and best practices when adopting cloud native technologies. The goal of the CNCF End User Technology Radar is to share what tools are actively being used by end users, the tools they would recommend, and their patterns of usage. Read the blog post and full report here.

  • CNCF End User Technology Radarの2020年9月版の紹介記事。
  • 6月に初版が出て、今回は2つ目ですね。Radar Teamが約1時間、今回の内容について解説しているWebinar動画が埋め込んであります。
Register for KubeCon + CloudNativeCon North America 2020 Virtual and save $50!

Registration is now open! Don’t miss out on THE event of the fall – KubeCon + CloudNativeCon North America 2020 Virtual, November 17-20! The CFP is now closed, and we are eagerly putting together a schedule that will fit our at-home, online-event lifestyles. Stay tuned for more details!

  • KubeCon + CloudNativeCon North America 2020 Virtual(11/17~11/20)の申し込みが始まりました。無料参加はKeynoteとSlackチャンネルの参加ができます。
  • 有料参加は参加申し込み時期により、以下の値段設定。お得な内に忘れず申し込みを。私はもう済ませちゃいました。
    • Early-Bird(Sep 9–30, 2020): $50 USD
    • Standard(Oct 1–31, 2020): $75 USD
    • Late(Nov 1–20, 2020): $100 USD

ICYMI: CNCF Webinars

You can view all CNCF recorded and upcoming webinars here.

CNCF Member Webinar: Arm Developer experience spanning cloud, 5G and IoT

Darragh Grealish, Co-Founder of 56K.Cloud & Marc Meunier Sr. Manager, SW Ecosystem Development @Arm

  • 開発者のエクスペリエンスがどのように形成されているか、CNCFプロジェクトとArmイニシアチブがこの変革をどのように実現しているかについて説明している。
  • 実際の例を参考に、入力デバイスからエッジノード、クラウドに至るまでアプリケーションが存在するさまざまなレイヤーに触れている。
CNCF Member Webinar: Building a cloud-native technology stack that supports full cycle development

Daniel Bryant, Product Architect @Datawire

  • フルサイクル開発に不可欠な4つの機能(コンテナ管理、プログレッシブデリバリー、エッジ管理、および観察可能性)について説明している。
  • 上記のテクノロジー要件について話し、一般的なアンチパターンとそれらを回避する方法を説明している。
CNCF Member Webinar: Highly scalable SaaS apps on Kubernetes: Real life case studies

Ram Kailasanathan, Senior Director Product Management @Oracle & Richard Bair, Senior Director Engineering @Oracle

  • DevOpsの速度でグローバルなクラウドネイティブのSaaSアプリケーションを構築する方法を解説している。
  • セキュリティの観点からすべての基盤をカバーしながら、実際のケーススタディを通じて、地域をまたいで数百のクラスターへのスケーリング、高可用性の実現、必要なモニタリングとトレースの提供について説明している。
CNCF Member Webinar: Kubernetes and Networks: why is this so dang hard?

Tim Hockin, Principal Software Engineer @Google

  • 単一クラスター環境とマルチクラスター環境の両方でKubernetesをネットワークに統合するためのさまざまなモデルを紹介している。
  • 開発者が特定の環境に最適な選択を行えるように、IP、ゲートウェイ構成、セキュリティ境界のナビゲート方法、各ソリューションの長所と短所について説明している。

The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Introduction to Tekton and Argo CD for multicluster development

Ryan Cook, Red Hat

  • 筆者の、カタログとプロセスツールに対する開発プロセスを簡単に説明している。
  • 関係するコンポーネントを紹介し、Tekton Pipelinesの仕組みについて少し説明し、組織やチームと共有できるツールを紹介している。
Scaleable multiplayer game design with OpenShift

Erik Jacobs, Roddie Kieley, Michael Clayton, Jared Sprague, and Derek Reese, Red Hat

  • Red Hat社のYouTube上で公開されている月次のシリーズ。
  • このシリーズではコンテナとOpenShiftを使用して、スケールアウトするマルチプレーヤービデオゲームアーキテクチャを設計するために必要なものを探っている。 ライブコーディング、哲学的設計の議論、およびその間のすべてが行われる。
  • 今回は初回のエピソード。ゲームのジャンルを選択し、ゲームデザイン(ルールと内部ゲームシステム)がアーキテクチャにどのように通知するかについて議論している。
Deploy a deep learning model on Kubernetes

Chaimaa Zyani, Kubermatic

  • Kubermatic Kubernetes Platformを使用して、画像認識予測を提供するディープラーニングモデルをデプロイ、スケーリング、管理する方法について説明している。
Preventing malicious use of Weave Scope

Steve George, Weaveworks

  • IntezerとMicrosoftによる、「TeamTNTハッカーが侵入を助けるためにWeave Scopeを使用している」との報告を受けて書かれているWeaveworks社の記事。
  • Weave Scopeは管理ツールであるため、強力な機能があり、インストールのセキュリティを確保することが重要。
  • スコープの使用方法と、Kubernetesのインストール時にスコープを保護することでスコープの誤用を防ぐ方法について説明している。
Cert-manager hits version 1.0.0

Jetstack

  • Cert-manager version 1.0.0のGitHubリリースページ。v1.0のリリースに伴い、cert-managerは成熟したプロジェクトであると正式に表明し、v1 APIとの互換性を約束している。Upgradeに対する注意事項もあるので、必ず確認してから実施する。
Service proxy, pod, sidecar, oh my!

Ivan Velichko

  • タイトルにあるコンポーネントの問題をデモ形式で手を動かしながら理解していく記事。
    • Make code, not war!
The death of Kubernetes AuditSink

Omri Cohen, Palo Alto Networks

  • 筆者が直近に書いたブログ記事「Kubernetes Audits Introduction」でタイトル通り Kubernetes auditsを紹介し、続きの記事として動的なバックエンドについて準備を進めていたが、その動的なバックエンド(APIオブジェクト AuditSink)がKubernetes V1.19で削除される通知を得たので、この記事にまとめている。
  • 筆者はKubernetesのslackチャンネルで質問し、以下の回答を得た。
    • TL;DR: the feature did not progress for the last 1.5 years since the group responsible for it couldn’t agree on it’s future.
Interview with Honeycomb engineer Chris Toshok: Dogfooding OpenTelemetry

Shelby Spees, Honeycomb

  • Honeycomb社の社内のエンジニアChris Toshok氏に OpenTelemetry(OTel)について実務者、サービスオーナーとしての視点でインタビューしている記事。
Warning: Helpful warnings ahead

Jordan Liggitt, Google

  • Kubernetes.ioでのメンテナーによるKubernetes v.1.19での機能追加に関するブログ記事。
  • 今までは機能の開発、バグのトリアージ、サポートの質問への回答などのの共有は、リリースノート、発表メール、ドキュメント、ブログ投稿などのアウトオブバンド方式に限定されていた。
  • Kubernetes v1.19では、Kubernetes APIサーバーがAPIクライアントに警告を送信できるようにする機能を追加した。
Continuous blue-green deployments with Kubernetes

Tomas Fernandez, Semaphore

  • Blue-Greenの手法でKubernetes上にアプリをデプロイするCI / CDパイプラインの作成方法を解説している。
  • ブルーグリーンデプロイメントの一般論は以前の投稿で解説している。
Kubernetes YAML generator

Octopus

  • "Kubernetes YAML generator"。これは個人的にとても嬉しい!!オススメです!
  • ドロップダウンと、オプションの入力でYAMLファイルが作れる。そして、リソース/オプションごとに考慮事項/リンクがある。
  • とても便利で教育的なUI。
  • 現在選べるリソースはDeployment、StatefulSet、DaemonSet。

The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Airbnb, with Melanie Cebula

Kubernetes Podcast from Google

Advancing the future of CI/CD together

Tracy Miranda, CD Foundation

  • Continuous Delivery Foundation(CDF)の紹介記事。
  • CI/CD landscapeは初見(リンクでは「Continuous Delivery Landscape」となっている)で、CNCF landscapeが「hellscape」と呼ばれているのは知らなかった。
New, free training course teaches fundamentals of serverless on Kubernetes

CNCF and LF Training

Balancing open source sacrifice and success

Alex Ellis, The ReadMe Project

  • GitHubのReadMeプロジェクトでのAlex Ellis(Founder of OpenFaaS、CNCF Ambassador)氏のこれまでのOSSと自身のビジネスについて書かれている記事。
  • ReadMEプロジェクトは、オープンソースコミュニティ(メンテナー、開発者、そしてチームが貢献して毎日世界を前進させる)の声を増幅させるもの。

Upcoming CNCF webinars

気になるWebinarがあれば登録してチェックを。以下は直近のものとしてリストされていたものです。

Member Webinar: ChubaoFS Best Practices
Wei Ding, Staff Engineer @JD.com
Sept 15, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: How To Run Kubernetes Securely and Efficiently
Joe Pelletier, VP, Products Fairwinds @Fairwinds
Robert Brennan, Director, Open Source @Fairwinds
Sept 16, 2020 7:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Effective Kubernetes Onboarding
Kathleen Juell, Developer, DODX @DigitalOcean
Sept 16, 2020 1:00 PM Pacific Time
REGISTER NOW »

Member Webinar: Declaratively managing apps in a multi-cluster world
Fernando Ripoll, Solution Engineer @Giant Swarm
Sept 17, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Critical DevSecOps considerations for multicloud Kubernetes
Nutanix and Sysdig
Sept 18, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Using KubeVirt in telcos
Abhinivesh Jain, Distinguished Member of Technical Staff @Wipro
Sept 23, 2020 7:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Mitigating Kubernetes attacks
Wei Lien Dang, Head of Strategy @StackRox
Sept 23, 2020 1:00 PM Pacific Time
REGISTER NOW »

Member Webinar: AWS controllers for Kubernetes – AWS services, now Kubified!
Jay Pipes, Principal Open Source Engineer @Amazon Web Services
Sept 24, 2020 10:00 AM Pacific Time
REGISTER NOW »

Project Webinar: Kubernetes 1.19
Kubernetes Release Team
Sept 25, 2020 8:00 AM Pacific Time
REGISTER NOW »

Member Webinar: VanillaStack as a platform for a truly vendor-agnostic open-source ecosystem
Karsten Samaschke, CEO @Cloudical
Sept 29, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Self service Kubernetes for enterprises
Jim Bugwadia, Founder and CEO @Nirmata
Sept 30, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Dapr, Lego for microservices
Mark Chmarny, Principal Program Manager @Microsoft
Oct 1, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Transactional microservices – The final frontier
Daniel Kozlowski, Minister of Engineering @PlanetScale
Oct 2, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Multi-Cluster & multi-cloud service mesh with CNCF’s Kuma and Envoy
Marco Palladino, CTO & Co-Founder @Kong
Oct 6, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: The evolution of cloud orchestration systems from ephemeral to persistent storage
Boyan Krosnov, CPO @StorPool
Oct 7, 2020 8:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Kubernetes native two-level resource management for AI/ML workloads
Diana Arroyo Software Engineer @IBM Research
Alaa Youssef, Manager, Container Cloud Platform @IBM Research
Oct 7, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Building dynamic machine learning pipelines with KubeDirector
Tom Phelan, Fellow, Software Organization @Hewlett Packard Enterprise
Oct 8, 2020 10:00 AM Pacific Time
REGISTER NOW »

いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara