運び屋 (A carrier(forwarder) changed his career to an engineer)

Network / Cloud Native / Kubernetes / コンテナー / SRE / DevOps

SRE / DevOps / Kubernetes Weekly Reportまとめ#87(2021/9/26~10/1)

The English Version of this blog is here.

この記事は2021/9/26~10/1発行の下記3つのWeekly Reportを読み、備忘録兼リンク集として残しているものです。

なるべく情報を早く届けたい/共有したいので、ブログのリンクを確認次第、先行公開しています。自身のコメントは随時追加しています。

  • 誰かの情報源や検索工数削減などになれば幸いです。
DEVOPS WEEKLY ISSUE #561 September 26th, 2021
SRE Weekly Issue #289 September 26th, 2021
KubeWeekly #279 October 1st, 2021
  • この記事を読んで疑問点や不明点があれば、URLから本文をご確認の上、ご指摘頂ければ幸いです。
  • 理解が浅いジャンルも、とにかくコメントする様にしていますので、私の勘違いや説明不足による誤解も多々あろうかと思います。
  • 情報量が多いので文字とリンクだけに絞っております。
  • 各レポートで取り上げられている記事には2020年以前のものもあり、必ずしも最新のものという訳ではない様です。

DEVOPS WEEKLY ISSUE #561 September 26th, 2021

News

The 2021 Accelerate State of DevOps Report is out, with advice on software delivery metrics, cloud adoption, the importance of documentation and more.
  • タイトルは「2021 Accelerate State of DevOps report addresses burnout, team performance」。
  • Google Cloud社のDORA(DevOpsResearch and Assessment)チームから「2021 Accelerate State of DevOps Report」を案内し、今年のレポートからの新しい発見を紹介している。
An interesting interview covering client library and SDK strategy, the importance of boring tools and adopting new technologies.
  • タイトルは「How Paul Osman thinks about long-term strategies, open telemetry, and the value of boring systems」。
  • 「Level-Up」という優れたエンジニアリングリーダーの最優先事項を学ぶインタビューシリーズの記事。タイトル通り、Honeycomb社のStaff Platform EngineerであるPaul Osman氏へのインタビュー動画からインタビュアーである筆者がポイントを抜粋している。
  • 末尾に約30分間のインタビュー全体の動画が埋め込まれている。
A post on the evolution of distributed tracing over the past 5 years.
As with most things, the DORA metrics can be used poorly or misrepresented. As the post states, when a measure becomes a target, it ceases to be a good measure.
  • タイトルは「How DevOps teams are using—and abusing—DORA metrics」。
  • タイトルと上記のEditorのコメント通り、DORA(DevOpsResearch and Assessment)メトリクスについて以下のポイントで解説している。
    • DORA metrics can be a double-edged sword
    • Here's the problem you really need to solve
    • It all starts with building the right culture
    • Keep learning
Pull requests as an attack vector. A well explained example of a potential attack, and some specific advice for others to help avoid this soft of supply chain attack.
  • タイトルは「Anatomy of a Cloud Infrastructure Attack via a Pull Request」。
  • 2021年4月のGithubリポジトリへの悪意のあるプルリクエストが本番環境にアクセスできるようにする脆弱性と、筆者達がCI/CDツールとプラクティスを改善している重要な領域に焦点を当て、以下のポイントで解説している。
    • Context
    • Technical details
    • Response
    • Advice to others
    • Wrap-up
A deep dive, multi-page, look at Linux Page Cache. If you’re administering Linux machines then understanding this can help with debugging various IO issues.
  • タイトルは「SRE deep dive into Linux Page Cache」。
  • Linuxページキャッシュを解説しているシリーズのChapter0のページ。Chapter構成は以下。
    • 0.Linux Page Cache for SRE
    • 1.Prepare environments
    • 2.Essential theory
    • 3.Basic file operations
    • 4.Eviction and page reclaim
    • 5.More about mmap()
    • 6.Cgroup v2
    • 7.Unique set and working set
    • 8.Direct IO
    • 9.Advanced tools
Kubernetes is a lot when it comes to operating a new system. This post is a good set of common beginner errors.
  • タイトルは「Common Kubernetes Errors Made by Beginners [2021]」。
  • 筆者のKubernetesでの数年の経験とさまざまなクライアントへのコンサルタント業務で気づいた一般的なKubernetes初心者のエラーの内、よくある以下6つを選んで解説している。
    1. The selector of the labels on the service does not have a match with the pods
    2. Wrong container port mapped to the service
    3. CrashLoopBackOff
    4. Liveness and readiness probes
    5. Resources — Requests and Limits
    6. Too many load balancer–type services

Events

The Data on Kubernetes community has an upcoming event on 12th October 2021. Lots of interesting talks for anyone running databases or stateful workloads on top of Kubernetes.
  • Data on Kubernetes Community(DOK)が以下のイベントを開催する。JSTだと、10/13(水)の01:00-09:00AM。
    • DoK Day North America 2021 @ KubeCon
    • Tuesday, October 12 9:00 AM – 5:00 PM PDT
    • Virtual + Los Angeles, California

Tools

Jspolicy is another Kubernetes policy agent, this time focused on supporting authoring policies in Javascript or Typescript.
  • JavaScriptまたはTypeScriptを使用したより簡単で高速なKubernetesポリシーエンジンである「jsPolicy」のWebページ。
    • 「Why yet another policy engine for Kubernetes?」の項目で、OPAとKyvernoとの比較表があり、優位性を訴えている箇所がわかりやすい。
  • GitHubページはこちら
GitOops is a tool to help attackers and defenders identify lateral movement and privilege escalation paths in GitHub organizations by abusing CI/CD pipelines and GitHub access controls.
  • CI/CDパイプラインとGitHubアクセス制御を悪用することにより、攻撃者と防御者がGitHub組織の横方向の動きと特権エスカレーションパスを特定するのに役立つツール「GitOops」のGitHubページ。

SRE Weekly Issue #289 September 26th, 2021

Articles

How SREs are unique in their approach to work

Here are some things that make SREs a unique breed in software work:

The one about Scrum caught my eye, and I followed the links through to the Stack Overflow post about SRE and Scrum.

Ash P — Cruform

  • SREがソフトウェア作業の中でユニークな以下の点を解説している。
    • SREs look at the broader picture
    • SREs thrive in ambiguity
    • SREs work beyond constraints like Scrum
    • SREs don’t stay in their lane
    • SREs don’t have a monolith job description
    • Comparison with software developers
Linux Page Cache for SRE

An in-depth explainer on the Linux page cache, full of details and experiments.

Viacheslav Biriukov

  • 上記DEVOPS WEEKLY ISSUE #560で取り上げているため、割愛。
Just got my first SRE job. I start tomorrow, any advice?

There’s some great advice in this reddit thread… and maybe some tongue-in-cheek advice too.

Take production down the first day they give access — then it’s nothing but up from there!

Various — reddit

  • これからSREの職に就く人からの質問に対して、それぞれのアドバイスがスレッドに溢れている。
Dark Side of Self-Service

Using two real-world case studies, this article explains how developer self-service can go wrong, and then discusses how to avoid these pitfalls.

Kaspar von Grünberg — humanitec

  • 開発者がセルフサービスにアプローチしない方法を解説している。
What is expected in the SRE role? We analyzed 30 job postings to find out.

What a great idea! I found it especially interesting that only 34% of SRE job postings mention defining SLIs/SLOs/error budgets.

Pruthvi — Spike.sh

  • Google、Twitter、Slackなどの主要企業からのSREの30件の求人情報を分析した結果から、大手企業のSREの役割のjob descriptionを分析し、その役割の2021年時点での上位の責任をまとめている。
10 questions teams should be asking for faster incident response

For the first time, we’ve created the State of Digital Operations Report which is based on PagerDuty platform data.
[…]
we will walk through some of these findings and share 10 questions teams can ask themselves to improve their incident response.

Hannah Culver — PagerDuty

  • タイトル通り、チームがインシデント対応を改善するために自問できる以下10の質問を共有している。
    1. What is our organization’s incident classification scheme?
    2. Which incidents require coordinated response?
    3. How do you get the right people involved?
    4. How can you respond faster through automation?
    5. Can you track whether a change led to an issue?
    6. How do you map the overall impact?
    7. How do you collaborate when time is the most valuable resource?
    8. How do you keep stakeholders informed?
    9. Do you have an efficient retrospective process?
    10. How do you incorporate learnings into your response process?
How to avoid bad assumptions during incidents

Incident response so often gets mired in assumptions that need to be re-evaluated. This article uses an incident as a case study

Lawrence Jones — incident.io.

  • 上記のタイトルとEditorのコメント通り、インシデントをケーススタディーとして、以下のポイントで解説している。
    • Trust, but verify!
    • How the incident started
    • Where the incident went wrong
    • 3 lessons we learned during this incident investigation
SRE vs. DevOps: What are the Differences?

This one lays out clear definitions of SRE and DevOps and compares and contrasts them.

Mateus Gurgel — Rootly

  • DevOpsとSREの間の複雑な関係を解き明かしながら、タイトル通りSREとDevOpsの違いや両方の概念を採用する方法などを以下のポイントで解説している。
    • What are SRE and DevOps?
    • What are the differences between SRE and DevOps?
    • Why do you hear more about DevOps than SRE?
    • Conclusion: Using SRE and DevOps together
Merlion: A Machine Learning Library for Time Series

This week, Saleforce released Merlion, a Python library for time series machine learning and anomaly detection. Linked is an in-depth research paper on Merlin, explaining its theory of operation and experimental results.

Bhatnagar et al. — Salesforce

  • 上記の通り、Saleforce社がリリースした時系列インテリジェンス用のPythonライブラリ「Merlion」の研究論文。

Outages

上記各社の障害情報。


KubeWeekly #279 October 1st, 2021

The Headlines

Editor’s pick of the highlights from the past week.

What to expect at KubeCon + CloudNativeCon North America

The New Stack

Priyanka Sharma and Jasmine James sit down with Joab Jackson of The New Stack to discuss this year’s schedule and agenda, how it will all compare to KubeCon+CloudNativeCon of years past and general cloud native trends.

  • KubeCon + CloudNativeCon North America 2021がいよいよ今月、October 11 -15に開催される。上記の通り、CNCFのGM Priyanka Sharma氏とco-chairのJasmine James氏がインタビューで今年の見どころや、「なぜ来年の#KubeCon + CloudNativeCon Europe 2022はスペイン第3の都市Valencia開催なのか?」なども聞いている。

ICYMI: CNCF online programs this week

A weekly summary of CNCF online programs from this week.

Kanister - Application level data operations on Kubernetes

Michael Cade & Pavan Devaraj, Kasten by Veeam

  • Kubernetesでアプリケーションレベルのデータ管理をサポートするフレームワーク「Kanister」を解説している約61分間のセッション。
  • Kubernetesのステートフルアプリケーションに関心のある開発者と運用チームが対象。MongoDBクラスターでの保護操作のライブデモを行っている。
Trace-based testing with OpenTelemetry

Michael Haberman, Aspecto

  • トレースデータを簡単に使用してアサーション機能を次のレベルに引き上げるOpenTelemetryに基づくJavascriptフレームワーク「Malabi」を紹介している約52分間のセッション。
Shifting security left-simplifying security for K8s & OpenShift environments

Jody Hunt, CyberArk

  • 開発者向けのセルフサービス機能を含む一元化されたシークレット管理により、シークレットやクレデンシャルなど、DevOps、GitOps、CI/CDパイプラインで機密情報を保護するベストプラクティスを解説している約51分間のセッション。
  • わかりやすいイメージを交えた丁寧な解説と、デモにより理解を進められる。
Redefining cloud native debugging

Noa Goldman, Rookout

  • クラウドに移行する際のデバッグの課題と、クラウドへの移行をより簡単かつ安全にするためのベストプラクティスとツールを解説している約18分間のセッション。
OpenEBS 3.0: What’s in it?

Kiran Mova, MayaData

  • タイトル通り、OpenEBS3.0の変更点と4.0以降の見通しを解説している約33分間のセッション。
The thing about your software supply chain…

Eylam Milner, Argon Security

  • ソフトウェアサプライチェーン内のさまざまなセキュリティリスクと脆弱性を取り上げ、攻撃者が最近のサプライチェーン違反のいくつかを実行した方法をライブで再現している約33分間のセッション。


The Technical

Tutorials, tools, and more that take you on a deep dive into the code.

Giving your legacy applications an API facelift

David La Motta, Kong

  • 非常にシンプルで強力な「Kong Gateway Lua plugin」の作成方法と、CLIを介してのみアクセスできるレガシーアプリケーションの前にAPIを配置する方法を紹介している。
Open EBS 3.0 release

Kiran Mova, OpenEBS

  • 冒頭にOpen EBSの概要を、「A quick summary」でこれまでのメジャーバージョンの特徴を解説し、3.0の変更点と上記 「ICYMI」コーナーのWebinarの視聴を勧めている。
Flux Server-side reconciliation is coming

Daniel Holbach, Flux

  • タイトル通り、Flux 0.18のリリースに伴い新しいサーバーサイドのreconcilerに移行する背景、注意点、対応方法、今後の見通しなどを解説している。
  • tl;drは以下の通り。
    • tl;dr: Server-side reconciliation will make Flux more performant, improve overall observability and going forward will allow us to add new capabilities, like being able to preview local changes to manifests without pushing to upstream.


The Editorial

Articles, announcements, and morethatgive you a high-level overview of challenges and features.

Podman, with Daniel Walsh and Brent Baude

Craig Box, Kubernetes Podcast from Google

Battlesnake: KubeCon Cup 2021

CNCF

  • KubeCon + CloudNativeCon North America 2021の「Experiences」のページから「Battlesnake: KubeCon Cup 2021」の紹介を指している。「Virtual Games Lounge」などの企画jも同一のページで案内あり。
Cloud Native Computing Foundation announces agenda for KubeCon + CloudNativeCon + Open Source Summit China Virtual 2021

CNCF

  • タイトル通り、KubeCon + CloudNativeCon + Open Source Summit Chinaがバーチャル開催で12/9 -12/10に開催される。105のセッションがあり、登壇者はAlibaba、GitLab、Huawei、Intelの各社を中心に多数予定されている。
Automation is the future of cloud cost optimization

Laurent Gil, CAST.AI

  • 「自動化されたクラウドコストの最適化」をテーマに自動化がすでに企業のクラウドの請求額を削減するのにどのように役立っているかを以下のポイントで解説している。
    • How to control cloud costs? 4 approaches
    • Manual vs. automated approach to optimization
    • Here’s an example of automated optimization
    • 4 reasons why manual cost optimization just doesn’t work in the cloud
    • Automated cost optimization – case study
    • Conclusion: Automation is becoming the new normal

Upcoming CNCF Online Programs

Live Webinar
  • October 5 at 10am PT: Kubernetes 1.22 release presented by Savitha Raghunathan, James Laverack, & Jesse Butler, Kubernetes 1.22 Release Team - RSVP
Cloud Native Live

Looking for more great curated content? Visit our Online Programs playlist on YouTube.

Learn more about CNCF Online Programs


いかがでしたか?気になる記事や情報はありましたか?

私もまだ内容を咀嚼出来ていないものが多々ありますので、この備忘録兼リンク集を活用しながら理解を深めていきたいと思います。

では、また。

Bye now!!

Yoshiki Fujiwara