運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#9(3/29~4/3)

この記事は2020/3/29~4/3に発行された下記3つのWeekly Reportを読み、備忘録兼リンク集として残したものです。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #483 March 29th, 2020
SRE Weekly Issue #213 March 30th, 2020
KubeWeekly #210: April 3rd, 2020

English Version of this blow is here.

  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2019年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #483 March 29th, 2020

News

A series of posts on common message-based middleware patterns using NATS. An introduction on the benefits of message architectures, setup instructions and more.

Part 2 / Part 3 / Part 4 / Part 5

  • タイトルは「NATS Messaging - Part 1 - Part 5」。

  • Systems Architectである R.I.Pienaar氏によるCNCFのIncubating ProjectであるMessagingツールNATSの5部作の紹介記事。

  • 丁寧な解説、図、デモ動画もあって凄い。これは宿題!

A detailed look at improving the performance of disk encryption in Linux.
  • タイトルは「Speeding up Linux disk encryption」。

  • Cloudflare社のIgnat Korchagin氏自社ブログでCloudflareがLinuxで社内と顧客向け両方のディスク暗号化のパフォーマンスを2倍以上速くした話を解説。

  • 暗号化のレイヤー、ソースコード、プロセス、プロトコル、パフォーマンステストと個人的に慣れていない様々な要素が一気に押し寄せて来て消化不良。これも宿題。

Many CI systems have adopted Docker containers to run the compute. This post explains why that’s useful, and how and why to build customer images to support your toolchain.
  • タイトルは「A Quick Guide to Building a Custom Docker Image for CI」。

  • Atomic Object社のSoftware Consultant & DeveloperであるJohn Ruble氏による「DockerがなぜCIと素晴らしくフィットしていて、カスタムイメージでより良くなる事」を解説している記事。

  • カスタムイメージを作ってDocker Hubにプッシュするまでの簡単なハンズオンもあり。

A useful post on observability and tracing, with some good explanatory diagrams and discussion of opentracing.
  • タイトルは「Tracing and Observability」。

  • 「荷物のトラッキング情報から、荷物の位置情報、経路、到着予定を確認する」という日常にある原理が、ソフトウェアシステムにも当てはまる。入りやすい導入文。

An explanation of how to catch recent API changes in your Kubernetes configuration using Open Policy Agent, Conftest and GitHub Actions.
  • タイトルは「How to detect outdated Kubernetes APIs」。

  • サポート切れのKubernetes APIを検知するツールとして、Deprek8Conftestを紹介している記事。

  • Deprek8はリポジトリのサポート切れAPIバージョンをチェックするOPA(Open Policy Agent ) ポリシーのセット。ポリシーの利用方法の1つとして、Rego query languageを使って定義するOPA Deprek8 policyを解説している。

  • ConftestはDeprek8でRegoポリシーを数に関わらず構成ファイルを適用する際に使える。YAML、JSON、CUE、Dockerfile、HCL、HCL2(Experimental)、XMLなどをサポートしている。

A post in praise of AWS S3. The influence of S3 is hard to argue against and this post explains why.
  • タイトルは「IN PRAISE OF S3, THE GREATEST CLOUD SERVICE OF ALL TIME」。

  • A Cloud Guru社による、AWSのS3を讃えている記事。同社にはAWS SAAを英語で受けた時にお世話になりました。

A starter kit for managing Helm charts using Helmfile. The repository introduces an opinionated workflow and provides examples of separating out per-environment configuration.
  • Helmfile Starter KitのGitHubページ。Helmファイルをベースとした複雑なソフトウェアのプロジェクトをKubernetesに導入する際に利用するスターターキット。

Tools

ssmsh is a handy shell for AWS EC2 Parameter store. The UI is modelled after a simple filesystem, so browsing parameters is immediately intuitive with ls, mv, rm and the like.
  • AWS EC2のパラメーターストア用の手軽なshellツールであるssmshのGitHubページ。
A set of small tools for using AWS Systems Manager, including opening an interactive shell and running a command on multiple instances based on instance tags or names.
  • 「AWSのインフラ制御と可視性を与えるAWS Systems Manager」の補助ツールであるSSM HelpersのGitHubページ。
Major incidents lead to more alerts, more downtime and unhappy customers. See how modern DevOps-minded teams are building virtual war rooms to quickly mobilize cross-functional engineering and IT teams around major incidents – improving incident remediation while reducing burnout:
  • DevOp WeeklyのスポンサーであるVictorOps社のブログ記事。

  • タイトルは「The War Room for Major Incident Response and Remediation」。

  • 障害発生時に大きなチームで協力して根本原因を突き止め、解決する必要性に触れ、解決方法として自社サービスの「War Room」とその14日間のフリートライアルを提案している。

SRE Weekly Issue #213 March 30th, 2020

Articles

COVID-19: Why We Should All Wear Masks — There Is New Scientific Rationale

This is important, and well worth a read. Where’s the SRE connection? The article explains that the U.S. Surgeon General’s comment that masks are "not effective" led to a stigma against those that wear them here. That kind of unintended sociological effect is uncovered commonly in incident post-analysis.

Sui Huang

  • 「COVID-19の対策としてなぜ全ての人がマスクをすべきか」という論争になっているネタを「SRE」の観点で、ロジックを持って語っている記事。
Keeping the Internet "Always On" — the Pressure of COVID-19 on Incident Response Teams

Pagerduty ran the numbers and discovered an increase in incidents recently, especially in certain companies.
Rachel Obstler — PagerDuty

  • PagerDuty社の調査によるとCOVID-19のプレッシャーにより、PagerDutyのプラットフォームを使っている全社でインシデントが増えており、オンライン学習など特定のサービスを取り扱っている会社は顕著に増えている。
February service disruptions post-incident analysis

Here’s the scoop on all those GitHub incidents in February.
Keith Ballinger — GitHub

  • GitHub社の2月に起きた計4件、8時間14分のサービス断の事後分析記事。

  • 元々、SQLデータが単一のクラスターに格納していたが、サービスの成長に伴い機能グループセットごとに新しいクラスターに分け、新しい機能については新しいクラスターに入れていたが、多くのコアなデータセットはオリジナルのクラスターに残っていた。

  • 新しいユーザー、プロダクトにおる負荷の増大に対応する為、データーベースを一貫してスケーリングしてきた。本件では、予期しないデータベースの負荷分散がクラスターのデグレと、アクセス不可を起こしたとの事。

Embrace Resilience for Business Continuity in Times of Uncertainty

No, it won’t be possible to continue operating business-as-usual. For the unforeseeable future, teams across the world will be dealing with cutbacks, infrastructure instability, and more. However, with SRE best practices, your team can embrace resilience and adapt through this difficult time.

Hannah Culver — Blameless

  • SREとして、現状の困難な状況(先行きの不透明さ、世界中のチーム人員削減、インフラの不安定さなどの諸問題)をインシデントとして捉え、回復性を持って対処していく事を説いている記事。

  • 困難な時だからこそ、原則によって出来た文言やルールに縛られるのではなく、原則に基づいて現実に合わせて改善していく事を説いていると受け取った。

  • 「学ぶリソースにも柔軟性が必要でしょう」として、いくつかのリソース、オンラインのイベントを紹介している。

Remote incident management

5 tips for incident management when you’re suddenly remote

I love the concept of "ephemeral information", that is, discussions that happen out-of-band, making it much harder to analyze the incident after the fact.

Blake Thorne — Atlassian

  • 「急にリモートワークになったのだが、インシデント管理をどうすればいい?」と多くのチームから尋ねられているAtlassian社のProduct Marketing ManagerであるBlake Thorneによる5つのtipsを伝える記事。

  • 「リモート・ファーストのインシデント管理」を実践してきたAtlassian社の「Incident Management Handbook」も必要情報(名前/会社名/役職/メールアドレス)を記入すれば、無料配布しているので参考に出来る。

Elastic Cloud January 18, 2019 Incident Report

Grey failure turned a seemingly reasonable auto-recovery mechanism into a DoS caused by a thundering herd.

Panagiotis Moustafellos, Uri Cohen, and Sylvain Wallez — Elastic

  • 題名通り、去年(2019年)の1/18のインシデントに関する、2019/01/31に出されたレポート。

  • Elastic Cloudを利用している顧客の AWS eu-west-1 (Ireland) リージョンのデプロイメントで概算で3時間の深刻なアクセス不具合、同じ時間帯でほぼ20分間の全デプロイメントでのアクセス不可が発生していた。

  • サービス影響への謝罪、根本原因を突き止め再発防止策を講じた事、更なる懸念点や疑問があった際の窓口の案内、再度の謝罪を行なってから障害の振り返りに入っている。

Outages

上記各社の障害情報

KubeWeekly #210: April 3rd, 2020

The Headlines

Editor’s pick of the highlights from the past week.

Join us for Cloud Native Summit Online!

With the postponement of KubeCon + CloudNativeCon EU, and many of our other favorite face-to-face industry events, CNCF, GitLab, Kong, and NetApp are excited to announce the Cloud Native Summit Online as another event to get the community together!

Cloud native open source projects, SIGs, and working groups are fundamental to many of our jobs. As we adjust to working remotely and maintaining productivity, we are excited to bring together experts from the community to provide insights and support around cloud native technologies and CNCF projects.

The virtual event will take place on Tuesday, April 7 from 6:00 am – 2:00 pm PT / 15:00 – 23:00 CET. We hope you’ll join us next week!

  • CNCFがクラウドネイティブサミットオンラインを現地時間4/7(火)に実施。日本時間は4/7(火)22:00〜4/8(水)08:00まで。(Googleカレンダーによると)

  • 登録はこちらから。メールアドレスと氏名のみなので、数秒で終わります。

  • 内容は以下の通り。

    • Graduated CNCFプロジェクトのアップデート情報 - Kubernetes, Prometheus, Envoy, Jaeger, Fluentd, Containerd, CoreDNS, Vitess, TUF。
    • 主要なSIGとWGのコントリビューターとのコミュニケーション。
    • CNCFこれから来るクラウドネイティブ技術のアップデート情報。
    • リモートワークの何か嬉しいギフト、ジョーク、コツなど。
CNCF projects surpass one billion lines of code: A Q&A with DevStats creator Łukasz Gryglicki

CNCF Staff

In monitoring DevStats, the community came across an incredible milestone – all CNCF projects combined have surpassed one billion lines of code. That’s right, one billion!

To mark this achievement, we sat down with DevStats creator Łukasz Gryglicki to learn more about the tool, it’s history, and how our community can benefit from it. Read the blog here.

  • CNCFのプロジェクトのデータを収集、可視化するOSSツールDevStatsによると、CNCFプロジェクトのコードが10億行を超えたとの事。

  • DevStatsのクリエイターであるŁukasz GryglickiへのDevStasとCNCFにとって10億行を超えるコードの意味をインタビューしている。

ICYMI: CNCF Webinars

Weekly recap of CNCF member and project webinars that you might have missed.
You can view all CNCF recorded and upcoming webinars here.

CNCF Ambassador Webinar: Continuous Profiling Go Application Running in Kubernetes

Gianluca Arbezzano, Site Reliability Engineer @InfluxData

  • InfluxData社のSREおよびCNCF AmbassadorであるGianluca Arbezzano氏による「ProfilerであるOSSツールProfefe」を解説しているWebinarの動画。 以前、このブログでも彼が書いている記事を取り上げている。
CNCF Member Webinar: MindSpore and Cloud Native Ecosystem

Zhipeng Huang, Open Source Community Manager @MindSpore and Yedong Liu, Open Source Engineer @Huawei

  • MindSpore社のOpen Source Community ManagerであるZhipeng Huang氏とHuawei社のOpen Source EngineerであるYedong Liu氏による「新しいディープラーニングと推測フレームワークのOSSツールであるMindSporeとクラウドネイティブエコシステム」を解説しているWebinarの動画。
CNCF Member Webinar: Container Security at Scale: Lessons Learned from the Front Lines with ABN AMRO and Palo Alto Networks

Wiebe de Roos, CI/CD Consultant @Flusso and ABN Amro and Keith Mokris, Technical Marketing Engineer @Palo Alto Networks

  • Flusso社およびABN AMRO社のCI/CD ConsultantであるWiebe de Roos氏とPalo Alto Networks社のTechnical Marketing EngineerであるKeith Mokris氏による「大規模な環境でコンテナをセキュアにDevOpsに準拠していくか」を解説しているWebinar動画。

  • 解説と図解が分かりやすく、声も聴きやすい。

CNCF Member Webinar: Taming Your AI/ML Workloads with Kubeflow – The Journey to Version 1.0

Johnu George, Technical Lead @CPSG-AI at Cisco, David Aronchick, Head of Open Source Machine Learning Strategy @Microsoft and Elvira Dzhuraeva, Technical Product Manager AI/ML @ Cisco

  • Cisco社のCPSG-AIチームのTechnical LeadであるJohnu George氏、同社のTechnical Product Manager AI/MLであるElvira Dzhuraeva氏、Microsoft社のHead of Open Source Machine Learning StrategyであるDavid Aronchick氏による「AI/MLワークロードをKubeflowを利用して使いこなす方法」を解説しているWebinar動画。

The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

How to detect outdated Kubernetes APIs

Tyler Auerback, Red Hat

  • 上記DEVOPS WEEKLY ISSUE #483で取り上げているので、割愛。
GitOps for Kubernetes

Agustin Romano, Caylent

  • GitOpsの概要、利点、ベストプラクティスとGitOpsを実装するツールとしてCNCF SandboxプロジェクトFluxを紹介している記事。
Evaluating Predictive Autoscaling in Kubernetes

Jamie Thompson, IBM

  • 筆者がHPA(Horizontal Pod Autoscaler)と似た様なCPA(Custom Pod Autoscaler)を過去6ヶ月Kubernetesのオートスケール用OSSとして開発し、その中でPHPA(Predictive Horizontal Pod Autoscaler)を作り、予測オートスケーリング機能をHPAに統計モデルを利用して提供する為にプレリリースを行なった。今回はPHPAをテストした内容と結果の紹介記事。
How to Secure Your Kubernetes Cluster on GKE

Lewis Marshall, Appvia

  • GKEは使いやすいが、セキュリティーの制御は自身で行う必要があり、ドキュメントを読んでも多くの特徴や変更がKubernetesのバージョンに合わせてある。

  • 筆者は「本番環境でセンシティブなワークロードを扱うなら実装は本記事に記載されている範囲内で設定」する事をオススメしている。

With Kubernetes Operators comes great responsibility

Jason Shepherd, Red Hat

  • OperatorのRBAC、Service Accountを利用した適切な権限設定に基づく利用方法を解説している記事。
Using UBI images to minimize container vulnerabilities

Rags Srinivas, Snyk

  • 2019年のRed Hat Summitで発表されたRed Hat Universal Base Images(UBI)をコンテナの脆弱性を最小化するイメージとして紹介している記事。
Build a Kubernetes Operator in 10 minutes with Operator SDK

Manuel Dewald, Red Hat

  • タイトル通りOperator SDKで10分でKubernetesのOperatorを作るCLIと解説がされている記事。手軽に始められてハードルが下がる。上記のOperatorのセキュリティーを考慮した記事の前に、こちらからやると良さそう。
Kpt: Packaging up your Kubernetes configuration with git and YAML since 2014

Phillip Wittrock, Google

  • Google社のOpen Source BlogからKubernetesのYAML管理ツールであるOSSツールKptの紹介記事。
Provisioning cloud resources (AWS, GCP, Azure) in Kubernetes

Daniele Polencic, LearnK8s

  • クラウドプロバイダー3社(AWS/GCP/Azure)上でKubernetesをプロヴィジョンする方法としてService CatalogKubeformConfig Connector(GCP)、AWS Operator Serviceを中心に解説をしている記事。超大作。正直、読みきれていない。。。これは私の今週のブックマーク記事。

The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Edge Computing Requires Cloud Native Thinking Today

Bill Mulligan, Loodse

  • 「Kubernetesとクラウドネイティブ技術をエッジコンピューティングで稼働させるには運用上、ビジネス上のモデルが無くてはならないが、まだ黎明期で、2024年まで年30%程度のマーケットの伸びが期待されているので、是日一緒にやっていきましょう」という筆者の意気込みと、コミュニティーや議論などへの参加を呼びかけている記事。
Optimising UE4 Project Builds With Cloud Native Infrastructure And Containers

Jose Moreira

  • COVID-19の最中に転職活動に苦戦しつつも、Unreal Containersコミュニティーに貢献し、フリーの開発者や中小のゲーム会社などの生産性を上げ、素晴らしいゲームを作る事にリソースを割ける様になる事を自身の野心として持っている筆者の記事。
Migrating to Kubernetes

Todd Campbell, Sensu

  • Kubernetesの移行にあたって他のプラットフォームとの違いを簡潔に触れつつ、読者がしなければならないであろう決断にフォーカスした記事。
14 Kubernetes interview questions: For hiring managers and job seekers

Kevin Casey, Red Hat

  • 「Kubernetesのスキルを持ったエンジニアを採用するのは、技術自体がまだ比較的若いので厄介なタスクなので、採用するマネージャー、求職者向けにインタビューで使える/準備しておくべき14の質問」をまとめた記事。

  • 「よき問いはよき答えを導く」という言葉が最近、頭の中に浮かぶのですが、正にこの質問集はポイントを理解する為のよい問いだと思いました。

Service Mesh Adds Security, Observability and Traffic Control to Kubernetes

Emily Omier, The New Stack

  • 「サービスメッシュがKubernetesのデプロイメントにもたらす価値」をテーマにThe New Stack社が2週に渡って行うシリーズの導入記事。

  • Kubernetesとサービスメッシュ、KubernetesとIstioの関係、サービスメッシュのテーマであるセキュリティー、可観測性、ルーティングをテーマに解説している。

BotKube

BotKube can be integrated with multiple messaging platforms like – Slack, Mattermost to help you monitor your Kubernetes cluster(s), debug critical deployments and gives recommendations for standard practices by running checks on the Kubernetes resources.

  • Kubernetesの監視、デバッグ、稼働確認を行うツール「BotKube」のioページ。

  • チャット形式でbotと監視、CLIでのデバッグが出来るのはUIとして良さそう。

MKIT – Managed Kubernetes Inspection Tool

Brad Geesaman, Darkbit

  • Kubernetesの構成設定ミスの素早く簡単なチェックを行うツール「MKIT(Managed Kubernetes Inspection Tool)」のioページ。GitHubページはこちら
HashiCorp Joins the CNCF

Adam Fitzgerald, HashiCorp

  • HashiCorp社がCNCFのメンバー入りした話!記事はこちら
Ansible for Kubernetes by Jeff Geerling Free until end of April

Jeff Geerling, Ansible

  • Ansible for DevOps」と「Ansible for Kubernetes」の著者であるJeff Greeling氏が「自己隔離したり、職を失った方々が自動化スキルを得られる様に」と3月末まで無料配布していた上記2冊が、Device42社のスポンサーによって、4月末まで無料配布延長された事を伝える記事。

  • 併せて筆者に個人として寄付や、筆者の在り方に言葉をくれた方々に感謝を伝えています。

Upcoming CNCF webinars

気になるWebinarがあれば登録してチェックを。以下は直近のものとしてピックアップされていたものです。

Welcome to CloudLand! An Illustrated Intro to the Cloud Native Landscape
Kaslin Fields, Developer Advocate @Google
Ambassador webinar
April 3, 2020 10:00 AM Pacific Time
REGISTER NOW »

Pravega: Rethinking storage for streams
Dell
Member webinar
April 7, 2020 10:00 AM Pacific Time
REGISTER NOW »

Best Practices for Deploying a Service Mesh in Production: From Technology to Teams
Buoyant
Member webinar
April 8, 2020 10:00 AM Pacific Time
REGISTER NOW »

New thoughts on distributed file system in the cloud native era
JD.com
Member webinar
April 9, 2020 10:00 AM Pacific Time
REGISTER NOW »

Declarative Host Upgrades From Within Kubernetes
Adrian Goins,Director of Community and Evangelism @Rancher Labs
Dax McDonald,Software Engineer @Rancher Labs
Jacob Blain Christen, Principal Software Engineer @Rancher Labs
Member webinar
April 14, 2020 10:00 AM Pacific Time
REGISTER NOW »

Enabling Cloud Native Storage for the Enterprise
Chris Merz, Principal Technologist for DevOps @NetApp
George Tehrani, Product Manager for Kubernetes and Cloud Native Data @NetApp
Member webinar
April 16, 2020 10:00 AM Pacific Time
REGISTER NOW »

KubeCarrier: The Operator of Operators
Nico Schieder, Software Engineer @Loodse
Member webinar
April 22, 2020 10:00 AM Pacific Time
REGISTER NOW »

如何让你的Windows应用运行在Kubernetes平台
杨雨 Alex Yang, 解决方案架构师 Solution Architect @Mirantis
张文墨Larry Zhang, 解决方案架构师 Solution Architect @Mirantis

Member webinar
This webinar will be delivered in Chinese
April 23, 2020 10:00 AM China Standard Time
REGISTER NOW »

Kubernetes 1.18
Kubernetes team
Project webinar
April 23, 2020 9:00 AM Pacific Time
REGISTER NOW »

Pivoting Your Pipeline from Legacy to Cloud Native
Tracy Ragan, CEO of DeployHub and CDF Board Member
Member webinar
June 30, 2020 10:00 AM Pacific Time
REGISTER NOW »

いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara