運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#39(10/25~10/30)

この記事は2020/10/25~10/30に発行された下記3つのWeekly Reportを読み、備忘録兼リンク集として残したものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #513 October 25th, 2020
SRE Weekly Issue #241 October 25th, 2020
KubeWeekly #239 October 31st, 2020 ←普段より遅れてきました。2020/10/31 23:02 JSTにメルマガ受信しました。

English Version of this blog is here.

  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2019年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #513 October 25th, 2020

News

A good introduction to ARM and the coming challenges, and advantages, of wider availability on laptops and servers of ARM-based architectures.
  • タイトルは「How to prepare for the coming CPU confusion」。
  • ARMの到来によりソフトウェア業界にもたらされる変化とは何か、なぜ人々がそれに興奮するのか、なぜそれがトリッキーになるのか、そして最も重要な、それを受け入れる準備を始める方法について説明している。
A great talk on security theatre. Good quotes on helping shift responsibilities earlier in the development process and good observations about the changing role of security teams.
  • タイトルは「EXIT STAGE LEFT: Eradicating Security Theater」。
  • 美しいスライドと、「Fisticuffs」「The Duel」「Judgment」「Redemption」「The Grande Finale」などの場面展開、表現に読んでいて楽しくなりました。
  • 締め括りの言葉も趣がありました。
    • “People don't want their lives fixed. Nobody wants their problems solved. Their dramas. Their distractions. Their stories resolved. Their messes cleaned up. Because what would they have left? Just the big scary unknown.” – Chuck Palahniuk
Slides from my talk last week at SnykCon, all about patterns for secure container base image management. Discussion of people, process and tools.
  • タイトルは「Patterns for secure container base image management」。
  • このメルマガの編集者であるGareth Rushgrove氏のSnykConでの登壇スライド。上記の様に人、プロセス、ツールに着目して解説されていて実務がイメージできて良いと思った。
A new Salt release is available, which means a super detailed post on the latest features and fixes from Salt Tips.
  • タイトルは「What's New in Salt 3002 Magnesium」。
  • SaltMagnesiumリリースの新機能の非公式なサマリー。その他の変更や廃止になったものについて知りたい場合は、公式のrelease noteschangelogを読むことを勧めている。
An interesting paper on quality metrics for infrastructure as code. Looking specifically at Ansible, but intended to be generalised.
  • タイトルは「Towards a Catalogue of Software Quality Metrics for Infrastructure Code」。
  • IaCプロパティに焦点を当てて特定するための46のメトリックで構成されるカタログを提案し、これまでで最も人気のあるIaC言語の1つであるAnsibleで、IaCスクリプトの分析にそれらを使用する方法を示している論文。
  • こういうまとまった文章にぶつかるたびに、読む速度と精度を上げたいと思うのだが、数をこなすことと、ポイントを押さえる必要に迫られないと身に付かないのかとも思う。実務に直結したスキルを身に付けやすい様に、論文を自分ごととして読む必要を作る、フィードバックを得るために学生生活をするのも、現実的な選択肢かなと考える場面が増えてきた。
Lots of people have written about tracing, but this post looks at some of the implementation challenges, from libraries and sampling to data transfer and storage.
  • タイトルは「Building Netflix’s Distributed Tracing Infrastructure」。
  • Netflix社のTechブログ。以前の同ブログで紹介した、ストリーミングセッションのトラブルシューティングツールである「Edgar」を強化するトレースインフラストラクチャーを、どのように設計したかを解説している。
  • 同社が開発してOSS化したMantisなどのツールが出てきたり、毎年進化、最適化しているストレージなどが見て取れて興味深い。
A detailed walkthrough of using client certificates to authorize user access to a Kubernetes cluster.
  • タイトルは「Kubernetes Tips: Give Access To Your Cluster With A Client Certificate」。
  • クライアント証明書を使用してユーザーをKubernetesクラスターに認証する簡単な方法を紹介している。この記事自体は、2019/06/08なので1年以上前。ここ数ヶ月は投稿が止まっている様ですが、Docker/Kubernetes/NATなどの過去記事は見覚えがあり、参考になる。
As an alternative to using cron for recurring jobs on Linux machines you can also use Systemd Timers.
  • タイトルは「Schedule jobs with systemd timers, a cron alternative」。
  • 内容はタイトルの通り。既存のものを編集する、確認することが多く、自身で作ってみるハンズオンをしたいのでブックマーク。自身の理解を深めるためにインフラレイヤーで触ってみるべきものが多数ある(分身したい)。

Events

The Software Circus Virtual Fest is back next week, Thursday 29th October, this time with a spooky twist! Join the Circus spirits on a 10-hour journey through your worst Cloud Native nightmares, wear your scariest costume and learn how to bring your projects back from the dead.

This is a free Community event, with a chilling line-up that includes Ian Coldwater, Kris Nova, Bryan Cantrill, Joe Beda and many more monsters. Check out the schedule and register today!

  • 10/29に開催される「The Software Circus Virtual Fest」の案内。前回に続き、無料イベント。
  • 前回見ましたが、それぞれバーチャルやリアルに面白いコスチュームを着ていて楽しかったです。

Tools

Akri lets you easily expose heterogeneous devices (such as IP cameras and USB devices) as resources in a Kubernetes cluster, while also supporting the exposure of embedded hardware resources such as GPUs and FPGAs.

  • 異なる種類のリーフデバイス(IPカメラやUSBデバイスなど)にアクセスできるノードを継続的に検出し、それらに基づいてワークロードをスケジュールするツール「Akri」のGitHubページ。
  • 異なる種類のリーフデバイスをKubernetesクラスター内のリソースとして簡単に公開し、GPUやFPGAなどの組み込みハードウェアリソースの公開もサポートしている。

SRE Weekly Issue #241 October 25th, 2020

Articles

Addendum

A quick note on last week’s issue: Google posted an updated version of their Google Chat incident summary with the “confidential” language removed. They also updated the content at the original link.

  • 編集者が先週の記事でGoogle社が「Important: Google Customer Confidential - Not for publication or distribution」の記載がある文書が公開されていると突っ込んでいましたが、「confidential」の文言が削除され、オリジナルリンクの内容も更新されていたことを伝えています。
June 15, 2020 T-Mobile Network Outage Report

T-Mobile, one of the main mobile phone carriers in the US, had a major outage earlier this year. This report is essentially a retrospective performed by the US FCC (Federal Communications Commission). The report details the satisfyingly complex interplay of contributing factors in the incident.

US Federal Communications Commission

  • 2020/06/15の正午、T-Mobileのワイヤレスネットワークで発生した障害のレポート。障害は12時間以上続き、911サービスを含む、全国の通話およびテキストメッセージサービスが影響を受けた。
  • アーキテクチャーの解説、分析がしっかり書かれている。プロトコルとしてOSPFの例が登場した時に、重み付けの仕方が気になったのはISPでの業務経験が影響しているのは間違いない。
Failing over with falling over

How can you be sure your failover plan will actually work? Hint: it’s almost certainly not going to work properly the first time you try it.

Adrian Cockcroft

  • スピーカーが自身の業務経験、実績、知見を踏まえて「回復力のあるシステム」をテーマにタイトルに沿って解説を行っている。
  • 以下の「The characteristics of a resilient system can be divided into four layers」は全体のポイントを理解する上で重要なので、以下に抜粋。
    1. Experienced staff – Use “game days” to understand how the system behaves when it’s managing failures, and know how to quickly observe and control problems.
    2. Robust applications – Have been tested using fault injection and chaos testing tools.
    3. Dependable switching fabric – An application framework that compensates for faults by routing around them
    4. Redundant service foundation – Redundant automated services that carefully maintain isolation so that failures are independent
3 Ways SRE Can Boost your Business Value

In this blog post, we’ll look at the business value of SRE through customer focus, observability, and efficiency.

Emily Arnott — Blameless

  • 冒頭で、組織がSREの世界に移行するための賛同を得るには、SREの価値を示す必要性、SREが収益に意味があることを証明するために詳細を引用する必要性に触れている。そして、SREのビジネス価値を顧客重視、可観測性、効率性をポイントに以下の3つの項目で解説している。
    1. SRE transforms how we understand customer satisfaction
    2. SRE makes business value more observable
    3. SRE minimizes value lost from incidents
Building Netflix’s Distributed Tracing Infrastructure

Netflix has some interesting ideas around sampling, performance, and storage for their tracing system.

Maulik Pandey — Netflix]

  • 上記のDEVOPS WEEKLY ISSUE #513で触れているので、割愛します。
10 Days of Errors

Oh, I do0 love reading stories of systems failing in interesting ways. This first installment contains five of the 10.

Yoz Grahame — LaunchDarkly

  • 10日間のエラーにまつわる怪談話のスタイルで、ひんやりした思いを味わう企画。そういえば、ハローウィンの季節でしたね。
Preparing for peak holiday shopping in 2020: War rooms go virtual

Black Friday is coming. Here are some ideas on how to deal with the rush — and how to analyze how you dealt with it when it’s over.

Nelly Wilson — Google

  • ブラックフライデー/サイバーマンデー(BFCM)に向けたGCPの取り組み、採用企業、 このような重要なピークイベントへのベストプラクティスを紹介している。以下3つのステップと各ステップの項目に基づいて解説している。
    • Step 1: Preparing for the event
    • Step 2: During the event
    • Step 3: Post event
The Chaos Engineering Book

Two of my favorite authors/speakers have conspired to create a book on one of my favorite topics. Take my money! Oh wait, they’re giving it away, too?!

Nora Jones and Casey Rosenthal

  • 無料E-BOOKはこちらから。上記のリンクからも辿っていけます。必要情報(名前、所属、役職、メールアドレス)を入力すれば、自動メールでダウンロードページが入手出来ます。
  • カオスエンジニアリングのポイントを以下に述べている。このブログでも著者の2名は何度か取り上げていますね。Podcastや記事で。
    • The point of Chaos Engineering isn’t to create chaos; it’s to chart a path of confidence through the chaos.

Outages

上記各社の障害情報

KubeWeekly #239

The Headlines

Editor’s pick of the highlights from the past week.

Service mesh is still hard

Service mesh is more mature than it was one or two years ago, but it’s still hard for users. In this post, Lin Sun from IBM outlines the reasons she thinks that service mesh is still difficult, and how they can be mitigated. She looks forward to observing innovations across all mesh projects as their authors work hard to make service mesh as boring but useful as possible.

  • KubeCon + CloudNativeCon NA Virtualのスポンサーとして、CNCFにゲスト投稿されている記事。8月にServiceMeshCon EUで講演されたタイトルに関して、下記5つのポイントで解説されている。
    1. Lack of clear guidance on whether you need service mesh
    2. Your service may break immediately after a sidecar is injected
    3. Your service may have odd behavior at start or stop time
    4. Zero configuration for your service is possible but zero code change is not
    5. Service owner need to understand nuances of client and service side configurations
Join us for KubeCon + CloudNativeCon North America Virtual 2020!

The countdown to KubeCon + CloudNativeCon North America is on. Have you reserved your spot?

Based on the community feedback from KubeCon + CloudNativeCon Europe 2020 – Virtual, we are bringing back the 101 track designed for first-time attendees — now expanded to include more sessions and tutorials! The 101 track is perfect for beginners to learn something new, share best practices, and catch a glimpse of interesting use cases.

Don’t forget that special pricing is available through October 31, 2020, a savings of $25 off registration. Don’t delay – act fast!

  • 先週に引き続き、KubeCon + CloudNativeCon North Americaが迫ってきて、有料参加チケットの割引が10月末までなので、再度案内がされている(日本時間ではもう11月になりますが)。

ICYMI: CNCF Webinars

You can view all CNCF recorded and upcoming webinars here.

CNCF Member webinar: The truth about the service mesh data plane

Denis Jannot, Director of Field Engineering @Solo.io

  • サービスメッシュの調査に伴って発生する以下の深刻な疑問に答えるため、データプレーンの役割と、問題のコンテキストに適したコンポーネントを選択する方法を解説している。
    • What data plane should I use?
    • How does this tie in with my existing API infrastructure?
    • What kind of overhead do sidecar proxies demand?
CNCF Member webinar: Admission controllers: one part of your Kubernetes security and governance toolkit

Gunjan Patel, Cloud Architect @Palo Alto Networks & Robert Haynes, Cloud Security Evangelist @Palo Alto Networks

  • Kubernetes Admission Controllerアーキテクチャの概要を説明し、特に、関連するOpen PolicyAgentおよびRego言語コンポーネントとともに、AdmissionControllerのvalidation機能について、終了時に以下を理解できているように解説している。
    • An overview of object creation in Kubernetes
    • The basics of the Rego language (for writing admission controller policies)
    • Sample admission controller policies for security and IT governance
CNCF Member webinar: Event-driven architecture with Knative events

Nicolás López, Senior Software Engineer @Google & Bryan Zimmerman, Product Manager @Google

  • モノリスからマイクロサービス、イベント駆動型アーキテクチャへの進行をふりかえっている。
  • cloud events、eventsの仲介者としてのKnative Eventingの使用方法、Knativeコンポーネントの理解、およびOperatorモデル(Sources, Brokers)の拡張性について解説している。
  • EventSourcing、Custom Events、およびServingを使用したオートスケーリングを紹介するデモあり。

The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Service mesh era: Building modern apps with YugabyteDB and Istio

Chirag Narang, Yugabyte

  • 冒頭に、「マイクロサービスアーキテクチャーにゼロトラストネットワークのセキュリティアプローチを採用する際に、最も一般的なセキュリティアプローチの1つは、mTLSを設定することだが、管理が難しく時間が掛かる」と課題を挙げている。
  • 上記の課題解決のため、YugabyteDBをIstio mTLSとともにデプロイして、サービス間の通信を保護する方法に焦点を当てたチュートリアルを解説している。
Container networking is simple

Ivan Velichko

Building Kubernetes native SaaS applications: iterating quickly by deploying in-cluster data planes

Pixie Labs

  • Kubernetesネイティブアプリを効果的に構築するためのテクニックとベストプラクティスについて説明するシリーズの最初の投稿。
  • 今回は、完全にクラスター内に存在するエアギャップされたデプロイメントを使用する場合と、クラウドとクラスターの間でそれぞれコントロールプレーンとデータプレーンを分割するシステムを使用する場合、それぞれのトレードオフについて説明している。
Building Kubernetes Operator from scratch using operator-sdk(1.1.0)

Saiyam Pathak, Civo Ramiro Berelleza, Okteto

  • タイトルに沿って、Kubernetes Operatorの必要性から解説しているYouTube動画。上記タイトルとYotubeのタイトルは若干の差異がある。Kuberntes OperatorsをKOと略しているのは新鮮だった。
GitOps using Red Hat OpenShift pipelines (Tekton) and Red Hat Advanced Cluster Management to deploy on multiple clusters

Red Hat, Giovanni Fontana

  • 組織が複数のクラスターおよびクラウドにアプリをデプロイするという課題の克服を目的として、Red Hat社が最近リリースした「Advanced Cluster Management tool」の紹介をしているシリーズの記事。
  • 前回の記事はこちら。TektonおよびRed Hat Advanced Cluster Managementを使用して、単一のOpenShiftマネージドクラスターを使用して、ライフサイクル環境(Dev、QA、およびProd)ごとに1つずつ、複数の名前空間にアプリケーションをデプロイする方法を説明している。
  • 今回の記事ではユースケースを拡張して、3つの異なるクラスターを使用して、前回と同じアプリをデプロイしている。
Introducing KubeLinter – an open source linter for Kubernetes

Viswajith Venugopal, StackRox

  • StackRox社のWebページにて、同社から新たにOSS化された「KubeLinter」の紹介をしている。KubeLinterは、Kubernetes YAMLファイルとHelmチャートをチェックして、それらに表されているアプリがベストプラクティスに準拠していることを確認する静的分析ツール。5分程度のデモ動画が埋め込まれている。
  • GitHubページはこちら
Helm Project Update: New Location For Stable and Incubator Charts

Matt Farina, Helm maintainer

The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Pop Punk to Pods, with David Pait

Craig Box and Adam Glick, Kubernetes Podcast from Google

  • Google社社員によるKubernetes Podcast。現在のCo-hostはCraig Box氏とAdam Glick氏。
  • 元pop punk band「Sparks The Rescue」のツアーミュージシャン(ベーシスト)で、現在はアドテク企業「Netsertive」のSRE、HelmのcontributorであるDavid Pait氏をゲストとして迎えて、「どうやって現在のポジションにたどり着いたのか?」を尋ねていて、そこからのKubernetesの導入、Velero/Rancherの利用、EKSへの移行などの話が面白かった。
  • News of the weekで気になったトピックは以下の通り。
Web scraping that just works with OpenFaaS with Puppeteer

Alex Ellis

  • OpenFaasのFounderでCNCF AmbassadorであるAlex Ellis氏がPuppeteerを紹介し、Puppeteerを使用して、OpenFaaS functionsを使用してWebサイトを自動化およびスクレイプする方法を解説している。
Preparing Google Cloud deployments for Docker Hub pull request limits

Michael Winser and Dhaivat Pandit, Google Cloud

  • Docker社が発表した、「無料プラン」ユーザーによるサービスへのプルリクエストの数のレート制限について触れ、DockerHubなどのサードパーティのコンテナレジストリからのコンテナイメージの依存関係について、コードベースとワークロードのスキャン方法のガイドなど、GCPユーザーの対応策を案内している記事。
Announcing the Linkerd Community Anchor Program

Thomas Rampelberg

  • Linkerd Community Anchor programを紹介しているCNCFの記事。
  • Linkerdのストーリーと体験を宣伝することを目的としたプログラム。複雑なユースケース、アハ体験、Linkerdを新しいツールと組み合わせた話など、Linkerdチームがシェアするプロセスも含めてサポートするとのこと。ご興味のある方は是非チェックを。
How to integrate virtual machines into Istio service mesh

Jimmy Song, Tetrate

  • Istioを仮想マシンと統合する必要がある理由とその方法について、Istioの概要と以下の項目で解説している。
    • Why Should Istio Support Virtual Machines?
    • What Is Needed to Add VMs to the Mesh?
    • How Does Istio Support Virtual Machines?
Announcing Vitess 8

Vitess maintainers

  • Vitess 8のリリースを案内しているCNCFの記事。
  • 下記のポイントをハイライトしている。リリースノートはこちら
    • Compatibility (MySQL, frameworks)
    • Migration
    • Usability
    • Innovation
Kubernetes project survey

Lero

  • おそらくリンクミス「現在、ファイルを開くことができません。」「アドレスを確認して、もう一度試してください。」のメッセージが表示される。→Twitterアカウントに報告したので、対応されると思われる。

Upcoming CNCF webinars

気になるWebinarがあれば登録してチェックを。以下は直近のものとしてリストされていたものです。

Member Webinar: Managing your policies and standards
Ahmed Badran, Chief Technology Officer @Magalix
Nov 4, 2020 7:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Security in the world of service meshes
John A. Joyce, Principal Engineer @Cisco
Nov 4, 2020 1:00 PM Pacific Time
REGISTER NOW »

Member Webinar: Building edge as a service
Dr. Bin Ni, CTO @Wangsu Science & Technology / CDNetworks
Nov 5, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Developer-friendly platforms with Kubernetes and infrastructure as code
Lee Briggs, Staff Software Engineer @Pulumi
Nov 6, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Kubernetes in the context of on-premises edge and network edge computing
Amr Mokhtar, Network Software Engineer @Intel Corporation
Nov 10, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: MicroK8s HA under the hood: Kubernetes with Dqlite
Konstantinos Tsakalozos, Senior Software Engineer @Canonica
Nov 11, 2020 7:00 AM Pacific Time
REGISTER NOW »

Member Webinar: The what and why of distributed tracing
Dave McAllister, Sr. Technical Evangelist @Splunk
Nov 13, 2020 10:00 AM Pacific Time
REGISTER NOW »

Member Webinar: Metal³: Kubernetes-native bare metal host management
Maël Kimmerlin, Senior Software Engineer @Ericsson Software Technology
Dec 10, 2020 10:00 AM Pacific Time
REGISTER NOW »

いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara