運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#73(2021/6/20~6/25)

The English Version of this blog is here.

この記事は2021/6/20~2021/6/25発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #547 June 20th, 2021
SRE Weekly Issue #275 June 21st, 2021
KubeWeekly #266 June 25th, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #547 June 20th, 2021

News

A post on why counting incidents and trying to reduce the number might not be the best approach to incident management.
  • タイトルは「Don't count your incidents, make your incidents count」。
  • 上記のEditorのコメントとタイトルに沿って以下の項目で解説している。
    • Fewer incidents doesn't mean things are better
    • More incidents is no bad thing
    • Targets can drive the wrong behaviour
    • Targeted or not, you're not in control
    • There are better alternatives to counting incidents
    • Measure what you actually care about
    • Measure the value you get from incidents
    • Give them the metrics they want, with the context they need
A fantastically detailed post on everything site reliability engineering for Kubernetes, including detailed hardening exercises to conduct.
  • タイトルは「Site Reliability Engineering for Kubernetes」。
  • SREの手法をKubernetesクラスターに適用する方法をステキで理解が進むイラストやイメージを交えて解説している。
A look at a new proposed incident management framework and why we need one.
  • タイトルは「Framework For Incident Management: Prepare, Respond, Review」。
  • インシデント管理の新しいフレームワークであるPrepare, Respond, Reviewを使用して、組織全体のインシデント管理を改善する方法を解説している。
  • 以下のコメントを見て、「そもそも日本ではITILが生かされている現場がどれだけあったのだろう?」という疑問を持ってしまった。
    • ITIL IS NO LONGER SUFFICIENT FOR INCIDENT MANAGEMENT
    • As complexity has increased, the ITIL framework has not evolved to deal with the messy reality.
A post on the difficulties of implementing SLOs, and introducing the Sloth toolkit.
  • タイトルは「SLOs should be easy, say hi to Sloth」。
  • 2021年のfancy wordとして「SLO」を取り上げ、これまでのSRE本からの経緯と上記のEditorのコメント通りSLOの実装の難しさと「Sloth」を紹介している。
An interesting use of OpenTracing to not only provide tracing through a service-based system, but also to carry custom context for anything from sharding to localisation to testing in production.
  • タイトルは「Leveraging OpenTelemetry For Custom Context Propagation」。
  • OpenTelemetryを採用および調整してカスタムコンテキストを伝播し、多くの重要なユースケースを供給した経験を以下の項目で解説している。
    • Diving deep into custom context use cases
    • Context propagation with OpenTelemetry
    • OpenTelemetry propagation formats
    • A close look at OpenTelemetry’s propagation formats
    • Rolling out new versions of OpenTelemetry
    • Addressing security considerations
    • Conclusion
A quick approach to hardening linux servers using the DevSec hardening framework and Ansible.
  • タイトルは「Secure Linux Servers by Default」。
  • うまくセットアップされていないLinuxサーバーをカッとなってしまう筆者が対策として進めている「base-secure」プロジェクトを解説している。
Containers and virtual machines have different tradeoffs. This post looks into how to run docker containers inside a microvm using QEMU.
  • タイトルは「Execute Docker Containers as QEMU MicroVMs」。
  • DockerコンテナとVMの長所と短所を比較し、QEMU MicroVM内でDockerイメージを実行する理由と方法を解説している。
Kubernetes by example is a comprehensive set of learning resources for Kubernetes including video, hands-on examples and a streaming community.
  • Kubernetesを学ぶためのリソースがまとめられている「KBE (Kubernetes By Example)」のWebページ。

SRE Weekly Issue #275 June 21st, 2021

Articles

Practical Guide to SRE: Incident Severity Levels

Here’s a take on incident severity levels. I enjoy learning what criteria folks use for this, so please send similar articles my way (or maybe write your own?).

Nancy Chauhan — Rootly

  • タイトル通り、図や表を効果的に使用してテーマである「Incident Severity Levels」を実践的に解説している。
Counterfactuals are not Causality

Counterfactuals (“should haves”) stifle incident retrospectives by tempting us to stop digging deeper. This article points out that there are unending possible counterfactuals for any incident.

Michael Nygard

  • 「Counterfactual」は「たられば」と理解。私は未来志向でシミュレーションしたり、原因を理解するためにはありだと思います。以下の筆者の考えに同感。
    • As long as we remain clear that these counterfactuals are not the cause of the problem that already happened, but are changes to our reality that can prevent future occurrences, we can use them without inducing blamestorming.
Don’t count your incidents, make your incidents count

Read to find out how counting incidents (or “# days since an outage”) won’t help and will cause more problems than it’s worth. Also included: options for what to count instead.

incident.io

  • 上記のDEVOPS WEEKLY ISSUE #547で取り上げているため、割愛。
SLOs should be easy, say hi to Sloth

Sloth is a tool for generating SLOs as Prometheus metrics, claiming to support “any kind of service”.

Xabier Larrakoetxea

  • 上記のDEVOPS WEEKLY ISSUE #547で取り上げているため、割愛。
Evaluating where your team lies on the SRE spectrum

If you’re looking for a way to evaluate your SRE process, this might help.

Alex Bramley — Google

  • 以下の疑問に対して、SREチームの運営方法の基本と考えられるいくつかの原則について話し合うことで、答え持つ手助けとなることを目指した記事。
    • "is what we're currently doing 'SRE work'?"
    • "can we call ourselves SREs yet?"
The Cost of 100% Reliability

This article tries to put an actual number on the cost of adding more nines of reliability.

Jack Shirazi — Expedia

  • 上記のEditorのコメント通り、信頼性の9を加えていくために掛かるコストの数値化に挑戦している2020年3月31日付けの記事。
  • 筆者からのアドバイスは以下。
    • And part of that advice is to have the SREs involved earlier precisely so that this type of cost vs reliability can be considered when it makes the biggest impact — before they have started to engineer for too high or too low a reliability.
2021 SRE Report

It’s time for Catchpoint’s yearly SRE report, downloadable in PDF form through this link. Note: you have to give them your email address.

Catchpoint

  • 今年のレポートはDevOps InstituteとVMware Tanzuとのパートナーシップで作成された。さまざまな業界と企業規模にわたる世界中の300人を超えるSREからの調査回答を分析している。

Outages

  • Akamai
    This outage impacted banks and airlines, among other Akamai customers.

上記各社の障害情報


KubeWeekly #266 June 25th, 2021

The Headlines

Editor’s pick of the highlights from the past week.

CNCF End User Community Provides Insights into Kubernetes Cluster Management with Technology Radar

The fifth Technology Radar is now available! Read a brief excerpt from the report on cluster management below:

“Multicluster management is still an emerging and complex space, so we wanted to gain a broader understanding of how organizations are doing it in the real world,” said Cheryl Hung, VP Ecosystem, Cloud Native Computing Foundation. “What we found is that there is no one size fits all solution for cluster management. Overall, approaches vary widely based on the number of clusters deployed and the management tools already in place, and custom tooling is usually necessary.”

  • CNCFが5番目のCNCFエンドユーザーテクノロジーレーダー「Multicluster Management, June 2021」を発表。今回もレーダーを作成したチームを招いて解説している動画あり。

Editor's note: In observance of the Fourth of July holiday (US), there will be no KubeWeekly on July 2, 2021. We will resume publishing on July 9, 2021.

  • 来週はUSの祝日のためKubeWeeklyはお休み。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

How we manage thousands of clusters with minimal efforts using Gardener

Hardik Dodiya & Samarth Deyagond, SAP

  • オープンソースのKubernetes as a Serviceである「Gardener」を紹介している 約54分間のセッション。
Turbocharging AKS networking with Calico eBPF

Chris Tomkins, Tigera

  • AKSでCalico eBPFを活用する方法を示し、パフォーマンスの向上やサービス処理の向上など、いくつかのメリットを解説している。CalicoのeBPF実装とCalicoのパフォーマンステストのベストプラクティスを学べる約59分間のセッション。
Improving developer self-service on communities

Santhosh Srinivasan, Peritus.AI

  • 高度なスキルを必要とする初期段階のオープンソーステクノロジーを選択して採用する際の課題を解説している約33分間のセッション。
Autoscaling event driven applications with Fission & Keda

Vishal Biyani & Gaurav Gahlot, InfraCloud

  • タイトル通り、FissionとKedaを使用してイベント駆動型アプリを構築し、コンポーネントが需要に応じてスケールし、これらのイベントの処理に必要な最小限のコードを解説している約23分間のセッション。


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Handling Auth in EKS Clusters: Setting up Kubernetes user access using AWS IAM

Steve Heneghan, NextLink Labs

  • タイトルの内容を以下の項目で解説している。
    • Part I: IAM Users and Groups
      • Role and Trust Relationship
      • Group and Policy
      • User and Group
    • Part II: IAM Roles and EKS
      • Terraform
      • eksctl (CloudFormation)
      • AWS UI (Manual)
    • Part III: EKS User and Namespace Permissions
      • Cluster Role/RoleBinding
    • Part IV: Review and Testing
Run the HAProxy Kubernetes Ingress Controller outside of your Kubernetes cluster

Nick Ramirez, HAProxy

  • HAProxy Kubernetes Ingress ControllerをKubernetesクラスターの外部で実行する方法を解説している。
How to build a Helm plugin in minutes

Datatree.io Blog

  • タイトルに沿って、Helmプラグインシステムのあまり知られていない機能などを紹介している。
Avoiding Kubernetes cluster outages with synthetic monitoring

Ruturaj Kadikar, InfraCloud

  • 「Kuberhealthy」を中心に以下を解説している。
    • What is synthetic monitoring and its importance in production-grade clusters?
    • Why synthetic checks are important for Kubernetes cluster?
    • What is Kuberhealthy?
    • How we safeguarded the Kubernetes cluster from a major outage?
    • What are some of the important use cases of synthetic checks with Kuberhealthy?
cAdvisor and Kubernetes Monitoring Guide

Vivek Sonar, CloudForecast.io

  • タイトル通り、Kubernetesでのモニタリングに関するいくつかの課題と、cAdvisorを使用してそれらに対処する方法を解説している。
How to monitor Kubernetes costs with Lens IDE

Kubecost Blog

  • KubecostとLensの統合により、KubernetesのコストをLens UIで視覚化できることをイメージを交えて解説している。


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

CNCF celebrates LGBTQ+ month: diversity-powered resilience in action

Priyanka Sharma, CNCF

  • CNCFが6月の「LGBTQ+ Pride Month」を祝い、コミュニティーのメンバーのストーリーと取り組みを共有している。
SRE for Everyone Else, with Steve McGhee

Craig Box, Kubernetes Podcast from Google

Revisiting the Twelve-Factor App Methodology

Kentaro Wakayama, Coder Society

  • タイトル通り、2011年ごろに発表された「Twelve-Factor App」を10年後の現在の視点で各項目をチェックして解説している。
How to Prepare for CKAD and CKA Certification?

The InfraCloud Team

  • タイトル通り、CKAD/CKAを取得するためのアドバイスやFAQがあり、これから受ける人の参考になる。
From RabbitMQ to GitOps with Alexis Richardson

Justin Dorfman & Tzury Bar Yochay, Curiefense

  • 成功するオープンソースコミュニティーとオープンソース企業を構築するためのアドバイスを共有している約43分のPodcastのエピソード。
What end-users want out of Prometheus remote storage: A comparison of M3 and Thanos

Gibbs Cullen, Chronosphere

  • タイトル通り、PrometheusリモートストレージとしてM3とThanosをエンドユーザーの視点で以下4つのポイントで比較している。
    1. Reliability and availability
    2. Scalability and simplicity (re: overhead management)
    3. Efficiency and speed
    4. Affordability
What is eBPF and why does it matter for observability?

Lavanya Chockalingam, New Relic

  • CNCFのゲスト投稿記事。eBPFとは何か、どのように機能するか、分散環境でeBPFが非常に役立つ理由を解説している。
I wrote a book about Golang

Alex Ellis

  • 筆者がGoに関する自身初のeBook「EverydayGolang」を出版。何を期待するか、そしてその背後にある物語を共有している。
Monitoring Kyverno with Prometheus

Shuting Zhao, Nirmata

  • Prometheusを利用したKyvernoの可観測性の概要を解説している。
Last chance reminder: Take the CNCF Cloud Native Survey - Part 1 to share your thoughts on cloud, containers, and Kubernetes. Complete it now for a chance to win a CNCF store gift card! The survey will close on July 15.
  • 「CNCF Cloud Native Survey - Part 1」の最終リマインダー。

Upcoming CNCF Online Programs

Cloud Native Live
On-demand Webinars

いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara