運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#65(2021/4/25~4/30)

The English Version of this blog is here.

この記事は2021/4/25~2021/4/30発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #539 April 25th, 2021
SRE Weekly Issue #267 April 25th, 2021
KubeWeekly #261 April 30, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #539 April 25th, 2021

News


A strong argument for why you need a platform team to really benefit from running on Kubernetes.
  • タイトルは「Why you need a platform team for Kubernetes」。
  • タイトルに沿って解説されており、結論は以下。
    • 組織が十分に大きく、Kubernetesを保守するための専用チームを用意できる場合は、コンピューティングリソースを管理するための他のオプションと比較して、多くの時間と労力を節約できる
    • 小規模な組織で、Kubernetes専用のチームを正当化できない場合は、プラットフォームの品質と信頼性が犠牲になる可能性がある
In a growing organisation, ownership of services will naturally move from team to team over time. This post contains some great tips on how to make those types of transitions more successful.
  • タイトルは「How to Successfully Hand Over Systems」。
  • タイトルと上記のEditorのコメント通り、エンジニアリングマネージャー、プロダクトマネージャー、およびチームに対して、システムの所有権の変更は、関係するすべての人にとって最適な時期に適切に計画および実行する必要があるプロセスである、と解説している。
A post on using the role of incident commander to aid in addressing operational incidents smoothly.
I’m a fan of light-weight community metadata standards. a8r.io is a set of annotations for Kubernetes objects for finding things like runbooks, issue tracking, log viewers, chat channels, etc.
  • タイトルは「Annotating Kubernetes Services for Humans」。
  • 開発者がKubernetesのServiceを管理するのに役立つアノテーションを使用するための規則の概要ページ。
AsyncAPI is a project aiming to make building and working with event driven architectures easier. Open source tools and specifications similar to OpenAPI.
  • タイトルは「Building the future of event-driven architecture.」。
  • 「AsyncAPI 」のWebページ。
A post on using preemptible nodes on GCP. These are unreliable by design, so implementing chaos engineering approaches is even more critical.
  • タイトルは「Migrating to GKE: Preemptible nodes and making space for the Chaos Monkeys」。
  • 昨年Expel社のSREチームとDDT(デバイス検出およびタスク)チームが、静的にプロビジョニングされた仮想マシン(VM)のレガシー環境から、より動的にスケーラブルで信頼性の高いデバイスタスクインフラへの移行と更新をタイトルに沿って解説している。
Lots of teams are managing increasingly large Kafka clusters. This post introduces Cruise Control and some of it’s features for rebalancing and visualising cluster workloads.
  • タイトルは「Visualization in Kafka Cruise Control」。
  • Teads社のエンジニアリングブログから。上記タイトルと、Editorコメントにある内容をUIやグラフなどを見せながら解説している。

Jobs

Do you love solving business problems? Are you driven by translating what you see into the design and implementation? Are you looking to automate and manage day-to-day operations of software and hardware infrastructure? Optiver are hiring Site Reliability Engineers!

As Site Reliability Engineer you will deploy, maintain, monitor and improve the reliability, scalability and performance of our in-house built trading software. You will sit on the trading floor together with the end-users and set standards for the production environment – it is an engineering role, not a support role. You will have a real, direct impact on our ability to trade and trading results. You will work with short feedback loops and flat hierarchy. No two days are the same!

  • SREの求人情報。

Events

DevX Conf is coming up this week on the 28th and 29th of April. A virtual conference dedicated to developer experience. 20+ speakers covering everything from code editors to collaboration, and build and release tooling to monitoring and security. The focus throughout is on bringing back joy and speed to our workflows.
  • 「DevX Conf」のイベントページ。登録はWebページのGitHub連携から。
This year's Failover Conf won’t be like any other virtual conference, with panel discussions, lightning talks, fireside chats, dance parties, pet slideshows, tons of swag, and more. Join us for discussions on reliability, DevOps, and SRE on April 27th at 9am PDT.
  • 「Failover Conf 」のGitHubページ。バーチャルカンファレンスで違いを違いを生み出そうという意欲を感じる。

Tools

ConsoleMe is a web service that aims to make AWS IAM permissions and credential management easier for end-users and cloud administrators.
  • エンドユーザーとクラウド管理者のAWS IAMのアクセス許可とクレデンシャル管理を簡単にするWebサービス「ConsoleMe」のGitHubページ。
Early, but very interesting. Zellij is on the surface just another terminal multiplexer. But it’s webassembly plugin system and plans for a browser based interface look interfacing for sharing reusable UIs.
  • Rustで書かれている端末ワークスペースおよびマルチプレクサ「Zellij」のGitHubページ。
  • 将来的には汎用アプリ開発プラットフォームになることを目指している。
Qovery is a high-level cloud application platform. It provides an interface based around Git and branches but deploys to your cloud environment, supporting AWS, Azure and GCP.
  • AWS、GCP、Azure、その他のクラウドプロバイダーへのアプリのデプロイをわずか数分で簡単に行えるオープンソースの抽象化レイヤーライブラリ「Qovery」のGitHubページ。
  • Rustで書かれていて、Terraform、Helm、Kubectl、およびDockerを利用してリソースを管理する。

SRE Weekly Issue #267 April 25th, 2021

Articles

SRE Case Study: Mysterious Traffic Imbalance

Yet more proof that DNS behavior varies way more than is obvious at first glance. Who the heck thought longest common prefix matching was a good idea?

Charles Li — eBay

  • タイトルのケーススタディを架空のWebサイトを元に解説している。
Fast and flexible observability with canonical log lines

The application may log multiple lines during the lifecycle of a request. Stripe has found it invaluable to also log one final line with a fully summary of the request.

Brandur Leach — Stripe

  • タイトル通り「canonical log line」を利用して軽量で強力な可観測性を確保する方法を解説している。
Google Incident Report — April 12, 2021

This is a followup with more detail on the G-Suite outage I reported here last week. A database issue caused two separate outages.

Google

  • 上記の通り、Googleのインシデントのフォローアップレポート。
The top 3 mistakes companies make with SLOs, SLAs, and SLIs

Really great advice about 3 common pitfalls in implementing SL*s.

Cortex

  • タイトルと上記のEditorのコメント通り、下記の下記の3を解説している。
    1. Unnecessary SLOs
    2. Tracking vanity SLIs—instead of business goals
    3. Lack of visibility and ownership around SLOs
Going solid: a model of system dynamics and consequences for patient safety – Resilience Roundup

This research paper explores the marginal boundary, a set of conditions beyond which a system enters a different operating mode and an accident is much more likely. It discusses the concept of coupling between seemingly unrelated parts of the system and shows how economic incentives can push a system toward this boundary.

Dr. Richard Cook and Jens Rasmussen (Original paper)
Thai Wood — Resilience Roundup (summary)

  • システムが疎結合状態から非常な密結合状態に移行するときの問題と、その結果として発生する可能性のある影響について解説している。
Vodafone Idea BGP Leak – Global Routing System Must Implement MANRS

This is an analysis of a recent BGP leak with a discussion about how the impact from such events can be mitigated through emerging best practices.

Alessandro Improta and Luca Sani — Catchpoint

  • 2021年4月16日に発生したVodafone Idea(AS55410)による経路ハイジャック事件の解説。
  • 筆者はルーティングセキュリティの脅威に対処するため「Mutually Agreed Norms for Routing Security (MANRS)」の実装を提案している。
How to Successfully Hand Over Systems

How do you hand over ownership of a system, transferring enough knowledge that the new owners can maintain its availability and reliability successfully?

Aleksandra Gavrilovska — SoundCloud

  • 上記DEVOPS WEEKLY ISSUE #539で取り上げているので、割愛。
Resiliency Planning for High-Traffic Events

Shopify works toward Black Friday / Cyber Monday all year long, through a combination of load testing, failure mode analysis, game days, and incident analysis.

Ryan McIlmoyl — Shopify

  • 大規模な開発チームのresiliency planの作成と維持、テストとツール、インシデント戦略の開発、フィードバックループの組み込みと改善について解説している。
  • Webページに約1時間のこのセッション動画が埋め込まれている。

Outages

上記各社の障害情報


KubeWeekly #261 April 30, 2021

The Headlines

Editor’s pick of the highlights from the past week.

Last chance to register for KubeCon + CloudNativeCon Europe 2021 - Virtual

KubeCon + CloudNativeCon Europe 2021 - Virtual kicks off next week on May 4-7, 2021! Join the CNCF global community for more than 100 interactive sessions and experiences.

If you haven’t registered yet, be sure to register now and begin planning your experience. Don’t forget that we have two different pass options - including a free Keynote pass. We hope to “see” you there!

Editor's note: KubeWeekly will take a short break for KubeCon + CloudNativeCon Europe 2021 and will resume on May 21. Enjoy the show!

  • KubeCon + CloudNativeCon Europe 2021の直前の案内と、このイベントのためKubeWeeklyが2週間休み、5/21に再開することを案内している。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Migrating from Flux v1 to Flux v2

Leigh Capili, Weaveworks

  • Flux v1でクラスターをブートストラップする方法、Flux v2に移行する方法など、ライブデモを交えた約1時間のセッション。
Reduce the carbon footprint of your cloud-native workloads now

Eric Riedel & Jean-Jacques Chanut, ITRenew & Andy Randall, Kinvolk

  • 今日のクラウドネイティブワークロードの二酸化炭素排出量を削減し、より優れたコンピューティングの経済性を実現する方法を解説している。
It is time to talk about DataMesh

Fred Chian, Brobridge Co. Ltd.

  • マイクロサービスの導入プロセスにおけるデータ供給の問題を正しく処理する方法を解説し、DataMeshのアーキテクチャーを通じたマイクロサービスの効率的なデータ提供プラットフォームの作成を目指している。
Using machine learning on K8s logs to find root cause faster

Larry Lancaster & Gavin Cohen, Zebrium & Aran Khanna, Reserved.ai

  • タイトルの内容を以下のポイントで解説している。
    1. How the technology works
    2. Live demonstration of the technology against a Kubernetes demo app
    3. Case study: How Reserved.ai is using the technology to speed-up incident resolution time


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Developing a Kong Gateway Plugin with Go
  • Golangを使用してカスタムKong Gatewayプラグインを作成する方法を解説している。
  • 筆者の作成したコンシューマーとプロデューサーの間のセキュリティのために新たなレイヤーを加えるサンプルプラグインはこちら
AKS cost monitoring and governance with Kubecost
  • Kubecost.comのブログ。
  • AKS(Azure Kubernetes Service)を含む、さまざまなセルフマネージド型およびホスト型のKubernetes環境をサポートしているオープンソース「Kubecost」を、AKS利用の観点から図をつけて紹介している。
Annotating Kubernetes services for humans
  • 上記のDEVOPS WEEKLY ISSUE #539同様、Serviceのアノテーションを紹介しているため、あわせて読んでおくと良さそう。
Automate service mesh observability with Kuma
  • 「Kuma」がトラフィックメトリックとトラフィックトレースポリシーを設定し、すぐに利用する方法を紹介している。
Kubernetes deployment strategies | Day 37 of #100DaysOfKubernetes
  • YouTubeの解説動画。概要欄に記載の通り、以下のタイムラインのKubernetesのデプロイ戦略などを解説してる。
    • 03:26​​ - Big-Bang
    • 05:22​ - Rolling Updates
    • 07:28​ - Blue-Green Deployment
    • 09:28​ - A/B Testing
    • 10:56​ - Canary Deployments
    • 13:03​ - Progressive Delivery


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Results from the CNCF Cloud Native Survey China 2020

CNCF

  • タイトル通りの内容で、英文の中に中文の表記が入っていたり、名称に中文が併記されていたりと読者に合わせた記載内容となっている。
Announcing Vitess 10

Alkin Tezuysal, Vitess maintainer

  • Vitess 10のリリースに合わせたMaintainerによる概要の紹介記事。
  • 取り上げられているのは、以下の点。
    • Compatibility (MySQL, frameworks)
    • Migration
    • Schema Management
    • Performance Optimizations
    • User Interface
    • Benchmarking
Liqo, with Alex Palessandro

Craig Box, Kubernetes Podcast from Google

How Containers are helping IT catch up with the speed of business

Ziv Kedem, Zerto

  • タイトルの内容をビジネスマン向けに解説しているForbesの記事。
Turbocharge workloads with new multi-instance NVIDIA GPUs on GKE

Maulin Patel, Sr. Product Manager, Google Cloud and Pradeep Venkatachalam, Software Engineer, Google Cloud

  • 以下のポイントでタイトルの内容を紹介している。
    • What customers are saying
    • Creating multi-instance GPU partitions
    • Deploying containers on a multi-instance GPU node
    • Getting started

Justin Dorfman, Richard Littauer, & Tzury Bar Yochay, Curiefense

  • Datawire社の開始の背後にあるストーリーと、TelepresenceやAmbassador API Gatewayなど、Datawire社から構築されたさまざまなプロジェクトなど興味深い話がされている。
Reminder: Participate in CNCF microsurveys on Cloud Financial Management on Kubernetes and diversity
  • こちらで何度か紹介されているサーベイのリマインド。
Take the 2021 CNCF Cloud Native Survey - Part 1
  • Cloud Native Survey 2021の紹介。今年のサーベイは2つのパートに分けて実施される。Part1のテーマは、「cloud, containers, and Kubernetes」。
  • Part2は、今年の後半に実施される予定。テーマは「CNCF projects and other cloud native technologies such as service mesh, serverless, and storage」。

Upcoming CNCF Online Programs

  • No Online Programs are scheduled for the week of KubeCon + CloudNativeCon Europe 2021 Virtual. We will resume the week of May 10!
  • Looking for more great curated content? Visit our Online Programs playlist on YouTube.

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara