運用/監視

BigQuery自動キャンセルで社内データ基盤のコスト最適化

1. はじめに 2. 背景と目的 3. 機能概要 3.1 Airflow を中心にした実装 3.2 キャンセル処理の流れ 3.3 キャンセル後の通知 3.4 キャンセル除外対象 4. 運用の成果 5. まとめ 1. はじめに こんにちは。開発統括本部 データ基盤開発部の林 沛萱(リン ペイ シ…

Datadogダッシュボードを目的別に再設計した話

はじめに 背景 多すぎるモニターと機能しないダッシュボード 目的別ダッシュボードの設計 第1階層:インシデント初動調査用ダッシュボード 問題発生の即時確認とサービス健全性の判断 相関関係によるボトルネックの切り分け ドリルダウンへの誘導とコンポー…

DMMの検索基盤をSolrからElasticsearchにリプレイスしました

はじめに Solr運用における課題 Solrを用いた検索システム構成 Solr構成における課題 EKSクラスタの定期的なアップデート Solrのウォームアップによる起動時間の長さ 検索改善施策への対応 Elastic Cloudに決定した理由 移行方法 既存機能の提供 各ユースケ…

ECSタスクの停止理由をログに残しましょう

はじめに なぜECSタスクの停止理由をログとして保存するべきなのか? New Relic や Datadog にECSタスクの停止ログを送信する方法 Terraformを使った実装例 1. Amazon Data Firehose 用のIAMロールの作成 2. Amazon EventBridge 用のIAMロールの作成 3. Amaz…

DMMにおけるNew Relic導入と社内情報発信の取り組み

はじめに New Relic導入活動の背景 New Relicとは? 社内への情報発信活動 1. New Relicを活用するための社内勉強会 2. New Relicに関する社内情報発信 1. おすすめ機能紹介 2. アップデート情報 3. メンテナンス情報 3. Slackでのサポート体制 今後の取り組…