運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#4(2/23~2/28)

この記事は2020/2/23~2/28に発行された下記3つのWeekly Reportを読み、備忘録兼リンク集として残したものです。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #478 February 23th, 2020
SRE Weekly Issue #208 February 24th, 2020
KubeWeekly #205: February 28th, 2020

English Version of this blow is here.

  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。

  • 情報量が多いので文字とリンクだけに絞っております。

  • 各レポートで取り上げられている記事には2019年のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #478 February 23th, 2020

News


An in-depth look at the recent report into the recent UK bank TSB IT migration failure. Lots of details and some great anecdotes for any enterprise IT or project management folks to learn from.
  • タイトルは「Lessons from the TSB failure: a perfect storm of waterfall failures」。

  • この記事では、Slaughter and May社による「TSB社の全銀行システムのIBMへのアウトソーシングを促した可能性のある移行失敗」に関する独自レポートのエグゼクティブ・サマリーのキーポイントをいくつかチェックしている。

This post describes the role game days, and practice in general, play in improving incident management processes.
  • タイトルは「Got Game? Secrets of Great Incident Management」。

  • ある日の未明2時にオンコールが入り->エスカレーション->障害対応チームの招集->役割分担->原因究明->問題解決し、ケースクローズ->...と思ったら、Game Dayという障害対応ドリルだった話。

Devops conversations often turn to how organisational structure impacts the work we do. This post cleverly looks at organisational structure not through the org chart, but through how people actually work and influence others. When we say we ship the org chart, we need to ask which one.
  • タイトルは「The Shadow Organizational Chart」。

  • Carta社のブログ。Carta社のCEOである筆者は長らく「シャドーエコノミー」の様に「影の組織図(shadow org chart)」があり、従業員間でアイデアのトレードしたり、方向性を与えたり、支援を得たり、文化を広めて来ていると長らく感じている。

  • 筆者は影の組織図をマッピングし、いくつかの観点から分析をしたいと考えていた。

  • Innovisorを利用し、筆者の社内(人間関係の)ネットワークグラフを作成している。

A nice long post on building a culture of operational excellence. The importance of measurement, training and education and how tools and culture support each other.
  • タイトルは「Towards Operational Excellence:Part 2 - On the importance of tools」。

  • 筆者はPrincipal Evangelist, ArchitectureのAdrian Hornsby

  • AWSのベストプラクティスの1つ「運用上の優秀性」に関するシリーズのPart 2。

  • Part 1はこちらから。

  • ビルドしたテクノロジーの運用を成功する3つの相互に接続している要素(文化/ツール/プロセス)のうち、ツールにフォーカスしている。

With the ever-present need to manage lots of YAML files, various tools have been emerging to help. This post looks at some of the problems with text-based templating, and explores yq, kustomize and using native Javascript bindings for Kubernetes.
  • タイトルは「Templating YAML in Kubernetes with real code」。

  • 記事内ではHelmの様な文字列を差し込みツールに頼るのではなく、yq や kustomizeを使ってYAMLをテンプレート化する方法を提案している。

Lots of details on how logging in Kubernetes works, from the cluster components to the applications you’re running on top.
  • タイトルは「The Complete Guide to Kubernetes Logging ~How is Logging in Kubernetes different, how it works, how to use it: use cases and best practices.~」。

  • 記事のゴールとしては、タイトルの内容 + ログを管理するするツールの紹介、そして読者が自身のKubernetesクラスターからログを集約出来る様にすること。

An example of using Lambda to bridge two other AWS services, in this case AWS Kinesis Firehose and AWS ElasticSearch.
Another post on alternatives to authoring Kubernetes configuration in YAML. This presentation looks at using Kotlin and the Kotlin Kubernetes DSL for authoring configuration.
  • タイトルは「KotlinConf 2019: Unlock Power of Kotlin DSL for Kubernetes by Fedor Korotkov」。

  • KotlinConf2019でのプレゼンのYouTube動画。

  • リンクされているサイト「codetalks.tv」がプログラミング言語などの人気のタグ(Javascript/Python/React/GraphQL)やイベントごとのタグで、まとめて開発者向けの動画がチェックできて良い。

Tools


Gops is a handy tool for listing and diagnosing Go processes running on a machine. LIst the process, which version of Go was used to compile the binary, network connections and more.
  • 現在稼働しているGo言語のプロセスをリスト表示して診断するツール「gops」のGitHubのリポジトリのリンク。

SRE Weekly Issue #208 February 24th, 2020

Articles

Anatomy of Cascading Failure

There’s so much in this article:

  • how to recognize when your system may be susceptible to cascading failure

  • how to prevent it

  • how to deal with it when it happens (and how hard that can be)

Laura Nolan — Slack

  • SRE本の23章「Managing Critical State」であり、「Seeking SRE」にもコントリビュートしている筆者Laura Nolan氏の「カスケード障害」に対する詳細な分析と6つのアンチパターンを避け、それを経験するリスクを低減する方法を提案。

  • 読み応え抜群なので、個人的に今週のブックマーク記事です。

Catchpoint’s SRE Survey 2020 Is Here

It’s time for this year’s SRE Survey. Don’t forget that with each completed survey, Catchpoint donates $5 to charity.

This growing demand [for SREs] is not without growing pains as a skills gap problem has emerged due to the fact that SRE training requires a hands-on, interactive learning environment.

Peter Murray — Catchpoint

  • 2/28まで実施されていたSRE Survey2020の案内。20から25分程度掛かる様ですが、$500のギフトカードが提供された様です。

  • 調査結果は3/23にリリース予定。3/24-3/26にアメリカのカリフォルニア州Santa Claraで開催されるSRECON AMERICAS WESTに間に合わせる格好です。

Resilience Roundup – Above the Line, Below the Line

Both the summary and the original article are well worth reading. This stood out to me:

As much as we may think of incidents as taking place in all those technical parts of the system below the line, incidents actually take place above it

Thai Wood (summary)
Dr. Richard Cook (original article)

  • 毎週インターネットでResilienceをテーマに記事を書いている「Resilience Roundup」の68個目のIssueとしてRichard I. Cook氏の記事を取り上げている。

  • このグループの議論に参加されたい場合はこちらから参加登録が出来ます。

The Jellyfish-Inspired Database Under AWS Block Storage

The EBS control plane data store resembles a "jellyfish" (actually a Physalia, a.k.a. Portuguese man-of-war).

Timothy Prickett Morgan — The Next Platform

  • 「AWSのクラゲのアーキテクチャにインパイアされたDB「Physalia」を題材に、ハイパースケールで復元力のある分散ブロックストレージサービスをアーキテクチャを学んで見ては?」という筆者からの提案。

  • 面白そうなので、改めて内容を深掘りする。

The Problem with Microservices: ‘Deep Systems’

Ideal: each team manages their microservice(s) in isolation.

Reality: microservices interact in unexpected ways and a broader system emerges that has remarkable similarities to running a monolith.

Ben Sigelman — LightStep

  • マイクロサービス化により新たに発生している事象「deep systems」について。

  • 単一のアプリに対して同時に稼動できる開発者の数に制限が出来、4以上のレイヤーで独立してインフラが運用されるアーキテクチャーになっている。

  • 開発者に可観測性を担保する新たなツールを与え、トラブルシューティングなどではなく、ソフトウェアの質の向上などの本来の仕事に時間を割ける様にすべきだという話。

SRE for single-tiered software applications

This one discusses how to handle SRE for a monolith, and some examples of what often goes wrong.

Eric Harvieux — Google

  • タイトルは「Making your monolith more reliable」。

  • Google社からの「モノリシックなアーキテクチャー」でよく見られる問題、monolithをプラットフォームとして扱い・スケールさせること、SRE Principlesを念頭にそれを実践していること、などに触れている。

Trying to sneak in a sketchy .so over the weekend

The author blocked an unexpected Sunday deploy of untested code, and it turned out to be a good thing they did.

rachelbythebay

  • 筆者の体験した数々の悪しきロールアウトとの戦いの歴史から1つを取り上げている。

  • 話はある日の現地時間の日曜日の午後3:30頃から始まる。管理者側から見た、社内のエンジニアの「思いつき」に対する怒りを感じる文章。

  • 休日の為に通常のサポートが得られない中、権限を得て本番環境を気軽に触ろうとしたり、信頼性を考慮せずに動こうとするなどの場面描写が興味深かった。

Outages

上記各社の障害情報。

KubeWeekly #205: February 28, 2020

The Headlines

Editor’s pick of the highlights from the past week.

The countdown to KubeCon + CloudNativeCon Europe is on!

Day-0 co-located events are a huge part of the event. This year, CNCF is hosting three co-located events in Amsterdam on Monday, March 30, providing the opportunity for attendees to deep-dive into these technology topics. We’re excited to share that the schedules are now available for these Day 0 events. Please find the details below.

  • KubeCon + CloudNativeCon Europeがいよいよ今月末と迫ってきましたが、今の所(3/1未明時点)は新型コロナウィルスによる、日程などの大きな変更は無し。
Schedules Announced for Cloud Native Security Day, Serverless Practitioners Summit, ServiceMeshCon

Kim McMahon, CNCF
* 以前(3週間前の記事)でも案内しましたが、Cloud Native Security Day、Serverless Practitioners Summit、ServiceMeshConが3/30(月)にアムステルダムで共催される。

Contributor Summit Amsterdam Schedule Announced

Jeffrey Sica, Red Hat and Amanda Katona, VMware

  • Kubernetesのコントリビューターサミットのスケジュール発表。3/29と3/30に行われる。

The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

New Application Manager brings GitOps to Google Kubernetes Engine

Palak Bhatia, Product Manager and Janet Kuo, Software Engineer, Google Cloud

  • GCPのGKEの新機能Application Manager(ベータ版)の紹介記事。

  • GitOpsの原則に則って宣言的な構成管理を。

  • デモ動画チュートリアルがある。手を動かしてみたい。

Kafka disaster recovery on Kubernetes with CSI

Toader Sebastian, Banzai Cloud

  • Banzai Cloud社によるApache KafkaのDisaster Recovery機能と、足りない部分を補完する自社製品Banzai Cloud Supertubesの紹介。

  • SupertubesはKubernetes上にプロダクション対応のKafkaクラスターを設定、運用する為のクラウドネイティブ技術スタックを活用したデプロイメントツール。

  • Supertubesは上記の環境を運用する為、Zookeeper、Banzai Cloud Kafka operator、Envoy、Istioとその他多くのコンポーネントが含まれている。

Pangolin: an experimental Kubernetes autoscaler

An enhanced Horizontal Pod Autoscaler for Kubernetes
Damian Peckett

  • Kubernetesの強化版(=enhanced)Pod水平オートスケーラー「Pangolin」のGitHubページのリンク。

  • Rustで書かれている。「Why Rust?」の存在とコメントに意思を感じる。

CNCF Tools Overview: Fluentd – Unified Logging Layer

Ran Ribenzaft, Epsagon

  • Epsagon社のRan Ribenzaftにより同社のサイトに書かれた記事を元にCNCFサイトに掲載されたゲスト記事。

  • ベアメタルやVM単位に管理者がsshやtailでアクセスしていた「古き良き時代のロギング」と、その後のコンテナ、廃棄容易なVM、PaaS環境での単一の装置をはるかに超えた可用性が約束された自体の対比。「ソフトウェアが管理していて、特定のサービスが稼働しているのはどのマシーンなのか分からないのに、ログにどうやってアクセスするのか?」。管理者目線で実作業の違いや課題がイメージできた。

Weathervane 2.0: An Application-Level Performance Benchmark for Kubernetes

Harold Rosenberg, VMware

  • VM社ブログでのKubernetesのアプリケーションレベルのパフォーマンスのベンチマークを行うツール「Weathervane」のバージョン 2.0の紹介。
How to Optimize I/O Intensive Containers on Kubernetes

Jay Huang, NeuVector

  • サブタイトルは「Understanding the Real-time Characteristics of Linux Containers」。

  • 高I/O最適化されたコンテナーを作成するには、CFS(Completely Fair Scheduler)を深く理解する必要がある。

What are Open Source Security Approaches? With Examples

Connor Craven, SDxCentral

  • OSSを使うメリットとセキュリティーで気を7つのポイントとプロダクトを紹介。
Different Approaches for Building Stateful Kubernetes Applications

Janakiram MSV

  • The New Stack社の2020年のKubernetesの課題を検証する3か月シリーズの1記事。

  • Kubernetesでステートフルワークロードを実行する課題を検証。StatefulSetやCSIに触れている。

ICYMI: CNCF Webinars

Weekly recap of CNCF member and project webinars that you might have missed.

CNCF Member Webinar: Managing Observability in Modern Applications

Ran Ribenzaft, Chief Technology Officer, Epsagon

  • 上記の記事、CNCF Tools Overview: Fluentd – Unified Logging Layerの筆者が実施した「モダンなアプリにおける可観測性の管理」に関するWebinarの動画。

  • 記事と同じくわかりやすい。質疑応答も10程度あって良い。

CNCF Member Webinar: Helm Security – A Look Below Deck

Matt Farina, Helm Maintainer, Samsung SDS
Hayley Denbraver, Developer Advocate, Snyk
Raghavan "Rags" Srinivas, Lead Container Developer Advocate, Snyk

  • Helmのsecurityに関するWebinar動画。

  • Helm v3でコミュニティーの要望でtillerを無くしたり、セキュリティーの観点での変更点などに触れている。

CNCF Member Webinar: From Notebook to Kubeflow Pipelines with MiniKF & Kale

Arrikto

  • 機械学習のワークフローをKubernetes上で動かす際のデファクトスタンダードはKubeflowになっている。

  • 機械学習のコード/実験/結果の可視化をJupiter Notebook上で行なっているサイエンティストのKubeflow Pipelineへの移行をシームレスにする事をテーマにしたWebinar動画。

The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

5 predictions for Kubernetes in 2020

Scott McCarty, Technical Product Manager, Red Hat

  • Red HatのTechnical Product Managerである筆者が2020年の元日に2019を振り返り、2020年にKubernetesエコシステムで起こる5つの出来事を予想している記事。

  • 掲載されているサイトとポジションの都合上、偏りがある事を考慮しておくと良さそう。

Distributions were for Linux, not for Kubernetes

Kendall Miller, Fairwinds

  • Forbes社の記事。Kubernetesの潮目や各社の動きや一般的な動きなど。

  • エンジニアはサラッと流し読みする感じの記事かな〜と思う。

State of Container and Kubernetes Security Report, Winter 2020

Stackrox

  • 先週取り上げた記事「Security concerns hampering the adoption of containers and Kubernetes」の元となった情報ですね。

  • 内容は重複するので割愛しますが、コンテナーとKubernetesのセキュリティーの現状をまとめたリポートですね。回答者のほぼ全員、94%が過去12ヶ月にコンテナー環境でセキュリティーのインシデントを経験した事など。

Enterprise Kubernetes with OpenShift (Part one)

Jaafar Chraibi, Red Hat

  • 「KubernetesとOpenShiftは何が違うの?」というよくある質問を「エンジンと車は何が違うの?」という質問に近い...という筆者の考えから始まる。

  • Red Hat社から見たKubernetesとOpenShiftの違いや、現状などがわかりやすく、「その視点は無かった」と数字を見て思った部分もありました。戦略やマーケティングは大事だと再確認。

  • シリーズのPart 1なので、続きが楽しみ。

Accelerators and GPUs at NVIDIA, with Pramod Ramarao

Craig Box and Adam Glick, Kubernetes Podcast from Google

  • NVIDIAのProduct ManagerであるPramod Ramarao氏がゲスト。

  • News of the weekは先週分も含めてKubeWeekで取り上げているニュースが多いが、そうでないものも多い。GCP関連多め。

Q&A: Kubernetes Storage SIG Chair on the State of State in Kubernetes

Emily Omier, The New Stack

Summing Up: Container Image Building

Puja Abbassi, Giant Swarm

  • 初期のDocker一強だった時代と異なり、Docker以外にもコンテナーのイメージをビルドするツールがたくさん出てきた。ビルドされたイメージがOCIの仕様に準拠していれば動くので、仕様の乱立や分裂は気にしなくてよくなっている。
Why Those Gaps in Kubernetes Are Really a Good Thing

Arvind Gupta, The New Stack

  • 様々なユースケースをサポートするために、初期のKubernetes開発者は、ユーザーに柔軟性を提供する為、このプラットフォームに意図的なギャップを与えた。つまり、CRD、CSI、CNIで環境を拡張できる様にできている。これによりインフラとアプリの両方の層に柔軟性がある。

  • 組織でKubernetesを採用する場合、必要な時間、労力、コストを最小限の方法で全体的な要件を満たすインフラおよびアプリ管理で検討することが重要。

Docker Images : Part II – Details Specific To Different Languages

Jérôme Petazzoni, Ardan Labs

  • 前のPart 1の記事では、マルチステージビルド、静的および動的リンクを紹介し、Alpineについて簡単に言及した。

  • このPart 2の記事では、Goに固有の詳細について説明し、次に、Alpineについて詳しく説明。最後に、Java、Node、Python、Ruby、Rustなどの他の言語でどの様に動作するかを確認。

On-Demand Container Scanning API

Jerry Gamblin, Kenna Security

  • 昨年の夏、筆者はdocker hubで最も人気のある1,000個のコンテナーの脆弱性の数を明らかにするために、vulnerablecontainers.orgを立ち上げた。

  • プロジェクトを立ち上げた直後に、他のパブリックコンテナをスキャンできるかどうかを複数の人に尋ねられた。

  • この機能を提供したかったので、過去2週間にわたって眠らないことに決め、今日公開する最初のAPIを構築した。

  • scan.vulnerablecontainers.orgは、TrivyFlaskGunicorn、およびNginxを使用して構築されたオープンPython APIであり、現時点では2つのパブリックエンドポイント(より多くのエンドポイントとツールを提供予定)を備えている。最初から、CI / CDとの統合のためにブラウザーまたはCLIで使いやすいように設計した。

  • アーリーベーダー版なので、プロダクションでは使わない様に。

  • 筆者寝ずに作ったので、「Notice Something Boken? 」ってボケているのも愛嬌ですが、フィードバックを返して欲しそうなので、興味ある方は是非。

Catch the CNCF next week at SCaLE 18x

Kim McMahon, CNCF

  • CNCFは3/5から3/8に掛けて開催される18回目の年次イベントSCaLE 18xのスポンサーおよび展示者として参加する。場所はカリフォルニア州Pasadena。

  • Kim McMahon氏はCNCFの代表として参加し、コミュニティーメンバーと会える事を楽しみにしている。

  • ブース番号#311でKubernetesのソックスを無料配布予定!コミュニティーメンバーによるブースのボランティアも募集中との事。

Webinar Registration

気になるWebinarがあれば登録してチェックを。以下は今週ピックアップされていたものです。

Kubernetes Security Best Practices for DevOps
Frédéric Harper, Senior Developer Advocate @DigitalOcean
Member webinar
March 3, 2020 10:00 AM Pacific Time
REGISTER NOW »

Service Mess to #ServiceMesh
Wallarm
Member webinar
March 4, 2020 10:00 AM Pacific Time
REGISTER NOW »

What’s New in Linkerd 2.7
Linkerd team
Project webinar
March 6, 2020 10:00 AM Pacific Time
REGISTER NOW »

Kubernetes Security Best Practices for DevOps
Connor Gorman, Principal Engineer @StackRox
Member webinar
March 11, 2020 10:00 AM Pacific Time
REGISTER NOW »

Welcome to CloudLand! An Illustrated Intro to the Cloud Native Landscape
Kaslin Fields, Developer Advocate @Google
Ambassador webinar
March 13, 2020 10:00 AM Pacific Time
REGISTER NOW »

How to migrate a MySQL Database to Vitess
Liz van Dijk, @PlanetScale
Project webinar
March 20, 2020 10:00 AM Pacific Time
REGISTER NOW »

Argo CD, Flux CD and the GitOps Revolution
Jay Pipes Principal, Open Source Engineer @Amazon Web Services
Member webinar
March 24, 2020 10:00 AM Pacific Time
REGISTER NOW »

Best Practices for Deploying a Service Mesh in Production: From Technology to Teams
Buoyant
Member webinar
April 8, 2020 10:00 AM Pacific Time
REGISTER NOW »

Kubernetes 1.18
Kubernetes team
Project webinar
April 23, 2020 9:00 AM Pacific Time
REGISTER NOW »

Pivoting Your Pipeline from Legacy to Cloud Native
Tracy Ragan, CEO of DeployHub and CDF Board Member
Member webinar
June 30, 2020 10:00 AM Pacific Time
REGISTER NOW »

いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara