運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#85(2021/9/12~9/17)

The English Version of this blog is here.

この記事は2021/9/12~9/17発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #559 September 12th, 2021
SRE Weekly Issue #287 September 12th, 2021
KubeWeekly #277 September 17th, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #559 September 12th, 2021

News

A good post on the early decisions (in this case around data storage) that can lead to cost control discussions later. You can apply this to other systems as well.
  • タイトルは「(Over)Pay As You Go for Your Datastore」。
  • 「従量課金制」で陥った落とし穴と、「次世代」データストアソリューションを設計するために筆者達が思いついたガイドラインを概説している。
Details on combining ttl.sh (which provides anonymous and ephemeral container registries) and Cosign to sign the images. A few interesting use cases for this sort of thing.
  • タイトルは「ttl.sh and cosign: Signing an anonymous & ephemeral Docker image registry.」。
  • 上記タイトルとEditorのコメントにある内容を解説している。
A critical review of the recently released Kubernetes security guidance from the NSA, including some up-to-date recommendations.
  • タイトルは「NSA & CISA Kubernetes Security Guidance – A Critical Review」。
  • 上記Cybersecurity Technical Report (CTR)に含まれているガイダンスを「The Good」「The Bad」「The Complex」の3つのポイントで解説している。
Authentication of the Docker socket is all or nothing, but you can always use a reverse proxy for finer-grained control. A good example using Caddy.
  • タイトルは「Restricting Docker Access With a Reverse Proxy」。
  • 上記タイトルとEditorのコメント通り、「Caddy」を使用したリバースプロキシーによるDockerへのアクセスのパスをフィルターする方法を解説している。
An interesting observation about the relationship between observability and the needs of auditors for compliance.
  • タイトルは「Security + Observability = Compliance」。
  • 筆者の考えるタイトルの概念を簡潔に解説している。
Whenever you’re building a new API, or consuming an API of another system, you quickly build up opinions about what a good API feels like. This post has some good advice for both processes, practices and principles.
  • タイトルは「How We Design Our APIs at Slack」。
  • APIの設計原則と、新しいAPIの仕様、レビュー、テストのプロセスを解説している。
  • 「Our design principles」は以下6つ。
    1. Do one thing and do it well
    2. Make it fast and easy to get started
    3. Strive for intuitive consistency
    4. Return meaningful errors
    5. Design for scale and performance
    6. Avoid breaking changes
  • 「Design process」は以下4つ。
    1. Write an API spec
    2. Internal API review
    3. Early partner feedback
    4. Beta testing

Tools

SLO Tracker is a dashboard application for displaying SLO and error budget information, based on integration to gather SLI data from Prometheus, Grafana, Datadog and other monitoring tools.
EKS Anywhere is an option to run AWS EKS (the AWS Kubernetes service) on your own infrastructure. The main use case is to standardise the management side of operating a service like this.

SRE Weekly Issue #287 September 12th, 2021

Articles

Industry Interviews: Colm Doyle, Incident Commander at Slack

Lots of details about how Slack does incident response in this one.

Stephen Whitworth — incident.io

  • タイトル通り、Slack社でIncident Commander(IC)になった経緯、ローテーション/対応方法/ページを受けた最初の5分間など、詳細に語られている。
Five Ways Developers Can Help SREs

This list also gives an interesting insight into the way this company does SRE.

Mayank Gupta and Merlyn Shelley — Squadcast

  • タイトル通り、SREの作業を楽にするために開発者が採用できる以下5つのベストプラクティスをリストアップしている。
    1. Scaling The Platform With The Concept Of A 12-factor App Method
    2. Sharing Performance Testing Data Insights
    3. Significance of Documentation and Configuration files
    4. AIOps Supported System Admin Functionalities
    5. Increasing Observability Of The System
Incident Review – What Was Behind the September 7 Spectrum Outage: A Case of Dr. BGP Hijack or Mr. BGP Mistake?

Oh BGP, you rascally little routing protocol.

Alessandro Improta and Luca Sani — Catchpoint

What is an SRE?

A comprehensive definition of SREs and Site Reliability Engineering, including what SREs do and what makes SREs different from other roles.

The article covers various facets of SRE and acknowledges that SREs can perform many roles.

JJ Tang — Rootly

  • SREの完全な定義を提供するために、技術的役割や立ち位置に関する質問やその他の質問を取り上げている。そして、SREが実際に何をするのか、そして組織内のSREが可能な限り最高に力を発揮できるように支援する方法を理解するヒントを提供している。
The Atlantic GLIDER, Air Transat flight 236! Explained by Mentour Pilot

Another really excellent air accident story with lots of great talk about mental models and confirmation bias. The crew saw lots of disparate indications that each didn’t point to anything in particular and each wasn’t a huge problem on its own. That, coupled with confirmation bias, helped them miss what might seem obvious in hindsight.

Mentour Pilot

  • 2001/08/24 06:13 UTCに発生したこれまでで最も有名な航空事故の1つである「Air Transat flight 236便」を取り上げ、インシデントに至った背景、乗組員の対処方法、最終報告書の安全に関する推奨事項を解説しているYouTube動画。

Outages

上記各社の障害情報。


KubeWeekly #277 September 17th, 2021

The Headlines

Editor’s pick of the highlights from the past week.

Congratulations to Envoy on the 5 year anniversary of the project!

Matt Klein, Envoy

Congratulations to Envoy on their fifth anniversary of the project! Hear from Matt Klein (the project creator) on Envoy’s brief prehistory and history of the project, along with some of the lessons learned along the way.

  • 上記のようにEnvoyプロジェクトのの5周年を記念してプロジェクトのcreatorであるMatt Klein氏が語っている。大規模なOSSプロジェクトの成長と共に自身が学んだ教訓を時系列に沿って語っている。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Kata and Arm, a secure alternative in the 5G space

Kiel Friedt, Arm

  • Armインフラストラクチャ上の5G O-RANコンポーネントと、5Gスペース内でのその重要性を示し、オープンソースコンポーネントを使用することの潜在的な影響と、そのコストの削減およびカスタマイズ性の向上を解説している約45分間のセッション。
Building an HA control plane for Tinkerbell with Kube-vip

Jason DeTiberus, Equinix

  • Tinkerbellプロジェクトの更新をチェックし、コントロールプレーンをどのように構築したか、およびkube-vipが果たす役割を解説している約1時間のセッション。
Moving from CLIs to control planes with Crossplane

Viktor Farcic, Upbound

  • ユニバーサルコントロールプレーン(Crossplane)を使用してインフラ、サービス、およびアプリを管理する利点を解説している約30分間のセッション。
Using CSI snapshots to backup and restore your data in Kubernetes

Michael Courcy, Kasten by Veeam

  • CSIスナップショット機能と、それがKubernetesストレージアーキテクチャにどのように適合するかを解説している約20分間のセッション。


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

NSA & CISA Kubernetes security guidance – A critical review

Iain Smart, NCC Group

  • 上記DEVOPS WEEKLY ISSUE #559で取り上げているので割愛。
Top 9 file integrity monitoring (FIM) best practices

Alejandro Villanueva, Sysdig

  • タイトル通り、ホストとコンテナのセキュリティに焦点を当てたFIM(File Integrity Monitoring)の4種類、以下9のベストプラクティスを解説している。
    • Prepare an asset inventory
      1: Scope which files and directories need to be monitored
      2: Define appropriate permissions
      3: Define a baseline
    • Detect drift
      4: Shift left with image scanning policies
      5: Detect real-time threats with runtime policies
    • Notify, investigate, and respond
      6: Implement an automated alert and response mechanism
      7: Gather forensics data for further investigation
    • Compliance and Benchmarks
      8: Stick to compliance requirements
      9: Run automated benchmarks
DataRoaster is now open-sourced, why I created it

Kidong Lee, ITNEXT

Why data scientists shouldn’t need to know Kubernetes

Chip Huyen

  • タイトル通り、データサイエンティストが技術スタック全体を負うすることは良いことだが、YAMLファイルを取得する代わりに実際のデータサイエンスに集中できる優れたインフラ抽象化ツールを利用すれば、Kubernetesを知らなくても負えると主張している。
Solving API authorization challenges in multi-cloud environments

Nima Moghadam, Kong

  • タイトルに沿って図やコードなどを用いて解説している。結論としてはOPAと宣言型ポリシーの使用は、特にAPIOpsで以下の理由により非常に人気が高まっているとしている。
    • Easy to integrate
    • Declarative
    • Extremely powerful and flexible
    • Platform agnostic
Rate limiting with the HAProxy Kubernetes Ingress Controller

Jim O’Connell, HAProxy

  • この記事では全体的なrate limitを使用してDDoSなどのイベントの影響を軽減する方法を解説している。ただし、HAProxy Kubernetes Ingress Controllerは、DDoS攻撃を防ぐためにさらにきめ細かくアノテーションを使用したIPごとの制御が可能。
Deploy OpenFaaS to Linode with K3sup

Alex Ellis, OpenFaas

  • タイトル通り、仮想マシンとK3supを使用してOpenFaaSをLinodeにデプロイする方法を以下のポイントで解説している。
    • Introduction
    • Tutorial
    • Create an account on Linode
    • Create a VM on Linode
    • Pre-reqs
    • Install K3s using K3sup
    • Install OpenFaaS
    • Configure an Ingress Controller and TLS certificate
    • Wrapping up
    • Getting in touch and supporting our work


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Prodfiler, with Thomas Dullien

Craig Box, Kubernetes Podcast from Google

Why we created the Prometheus Conformance Program

Richard Hartmann, Grafana Labs

  • タイトル通り、PrometheusのConformance Programを作った理由を紹介している。
  • Conformance Programの設計、利用可能なテストスイート、現在のテスト結果、Prometheus compatibilityの公式マークの申請方法の詳細はKubeCon + CloudNativeCon NAの以下の10/14のセッションで。
Crossplane is now a CNCF incubating project

Jared Watts, Crossplane blog

  • タイトル通り、CrossplaneがCNCFのsandboxからincubatingにmaturity levelが昇格したことを報告し、以下のポイントで振り返り、今後を語っている。
    • A Consistent Vision
    • The Community Keeps Growing
    • First Major Milestone Ready for Production
    • Strong Partnerships with the Ecosystem
    • Production Adoption
    • Conformance in the Ecosystem
    • The Road Ahead
Google's Sqlcommenter now extending the vision of OpenTelemetry to databases

Nimesh Bhagat, Google Cloud

Cloud Native Chaos and Telcos - Enforcing reliability and availability for telcos

W.Watson, Vulk Coop & Karthik S., LitmusChaos

  • タイトルにあるキーワードに沿って解説している。Conclusionは以下。
    • Borrowing from the lessons learned when applying chaos testing to cloud native environments, we should use declarative chaos specifications to test telecommunication infrastructure in tandem with its development and deployment. The CI/CD tradition of "pull the pain forward" with a focus on MTTR will produce the type of highly available and reliable systems that cloud native telecommunication systems will need to be.
7 microservices best practices for developers

Michael Bogan, Kong

  • タイトル沿って以下7つのポイントで解説している。
    1. Small Application Domain
    2. Separation of Data Storage
    3. Communication Channels
    4. Compatibility
    5. Orchestrating Microservices
    6. Microservices Security
    7. Metrics and Monitoring
NSA & CISA Kubernetes security guidance

Lars Larsson, Elastisys

  • Kubernetes Hardening Guidance」の主な結論となるメッセージを要約し、クラウドセキュリティーに関する筆者の個人的な経験に基づいて、追加の洞察を提供している。
KubeCon + CloudNativeCon North America preview with Constance Caramanolis and Stephen Augustus

The CUBE

  • タイトル通り、KubeCon + CloudNativeCon North AmericaのCo-chairの2人がイベントに向けてインタビューを受けて見どころを語っている約21分間のセッション。
Introducing the CNCF End User Journey Report: First up, Spotify

CNCF

  • CNCF End User Communityから最初のレポート「End User Journey report features Spotify」が出たので紹介している。
  • End User Journey reportは、アクティブなエンドユーザーコミュニティーメンバーに焦点を当てている。これらの組織がテクノロジーリーダーとしてどのように成長し、CNCFエンドユーザーコミュニティーに参加後、どのように利益を得たかを示している。

Upcoming CNCF Online Programs

*edited as the Kubernetes 1.22 release webinar has been rescheduled

Live Webinar
Cloud Native Live
On-demand
CNCF End User Lounge Livestream

Looking for more great curated content? Visit our Online Programs playlist on YouTube.

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara