運用/監視

Vertex AI PipelinesによるMLバッチ基盤の運用

はじめに 1. Vertex AI Pipelines採用の背景 2. 開発効率化 2.1 CI/CDとディレクトリ構成 2.1.1 GitHub Actionsの採用 2.1.2 ディレクトリ構成 2.1.3 デプロイフロー 2.1.4 Config駆動のパイプライン管理 2.2 Goによる共通コンポーネント 2.2.1 PythonからGo…

Datadog のダウンタイムを使って監視を改善する

はじめに 課題 対策 おわりに はじめに この記事は、DMMグループ Advent Calendar 2025 の 15 日目の記事です。 プラットフォーム開発本部で認可サービスの開発をしている juve_534 です。 私が所属するチームは認可サーバの開発・運用を責務としています。 …

BigQuery自動キャンセルで社内データ基盤のコスト最適化

1. はじめに 2. 背景と目的 3. 機能概要 3.1 Airflow を中心にした実装 3.2 キャンセル処理の流れ 3.3 キャンセル後の通知 3.4 キャンセル除外対象 4. 運用の成果 5. まとめ 1. はじめに こんにちは。開発統括本部 データ基盤開発部の林 沛萱(リン ペイ シ…

Datadogダッシュボードを目的別に再設計した話

はじめに 背景 多すぎるモニターと機能しないダッシュボード 目的別ダッシュボードの設計 第1階層:インシデント初動調査用ダッシュボード 問題発生の即時確認とサービス健全性の判断 相関関係によるボトルネックの切り分け ドリルダウンへの誘導とコンポー…

DMMの検索基盤をSolrからElasticsearchにリプレイスしました

はじめに Solr運用における課題 Solrを用いた検索システム構成 Solr構成における課題 EKSクラスタの定期的なアップデート Solrのウォームアップによる起動時間の長さ 検索改善施策への対応 Elastic Cloudに決定した理由 移行方法 既存機能の提供 各ユースケ…

ECSタスクの停止理由をログに残しましょう

はじめに なぜECSタスクの停止理由をログとして保存するべきなのか? New Relic や Datadog にECSタスクの停止ログを送信する方法 Terraformを使った実装例 1. Amazon Data Firehose 用のIAMロールの作成 2. Amazon EventBridge 用のIAMロールの作成 3. Amaz…

DMMにおけるNew Relic導入と社内情報発信の取り組み

はじめに New Relic導入活動の背景 New Relicとは? 社内への情報発信活動 1. New Relicを活用するための社内勉強会 2. New Relicに関する社内情報発信 1. おすすめ機能紹介 2. アップデート情報 3. メンテナンス情報 3. Slackでのサポート体制 今後の取り組…

開発生産性Conference2024 登壇レポート - 開発生産性向上のための監視運用の改善 -

はじめに 開発生産性Conferenceとは 登壇内容 開発生産性向上のための監視運用の改善 登壇の様子 New Relic様とのディスカッション ディスカッションの様子 SNSでの反応 おわりに はじめに こんにちは! ITインフラ本部 SRE部の湯浅です。 2024年6月28日、29…

サービスの稼働状況をStatus Pageを使って可視化した話

はじめに なぜ Internal Status Pageを作ろうと思ったのか Internal Status Pageについて サービス選定基準 システム構成 構成要素について できた! 今後の展開 最後に はじめに この記事は DMMグループ Advent Calendar 2023 の19日目の記事です。 こんに…

DMMオンラインサロンの監視改善

はじめに オンラインサロンのシステムについて 抱えていた監視関連の課題 監視運用改善のための取り組み 導入フェーズ 改善フェーズ 活用フェーズ まとめ はじめに こんにちは、合同会社DMM.com オンラインサロン事業部の谷川です。 DMMオンラインサロンのプ…

SLI/SLO文化を組織に浸透させる! 〜プロダクト憲章作成から始める4ステップ〜

はじめに 元々抱えていた課題 SLI/SLO文化を組織に浸透させるためにやったこと step1:プロジェクトの憲章を再定義する step2:SLI/SLOという概念と運用ポリシーの認識を合わせる step3:プロダクトの提供すべき価値からSLI/SLOを定義する step4:DatadogでSLOの…

ポイントグループの運用監視カイゼンの取り組み

はじめまして。ペイメントサービス部 ポイントグループの谷内(やち)です。 現チームにジョインしてから初めて業務でサーバーサイドを経験し、かれこれ3年近くDMMポイントに関するシステム(以下、ポイントシステム)の開発・保守をしています。 ところで皆…

レガシーとの向き合い方 〜cron から Rundeck へ〜

はじめに ポイントシステムのバッチについて cronによるバッチと日々の運用業務について 毎朝バッチの数だけメールを確認する バッチに異常があった場合、調査・修正を行う Rundeckによるバッチと日々の運用業務について Slack通知が来たら確認する バッチに…

コンタクトセンターシステムを進化させる!CSS スクラムチームの紹介

メンバーシップサービス部 CSSスクラムチームのプロダクト「コンタクトセンターシステム」についてご紹介します。 はじめに CSSチームとは コンタクトセンターシステムとは やっていきたいこと ①自己解決率を上げたい ②問い合わせをすばやく解決したい ③そも…