QA部の生成AI活用実態調査~2025年秋期~

サムネイル

想定読者

本記事は、以下のような方々を想定読者としています。

  • QAエンジニア、テストエンジニア、品質保証に関わる実務者
  • AI技術の品質保証への応用に関心をお持ちのエンジニア

はじめに

こんにちは、QA部の大段です。

2025年7月に実施したAIツール活用状況調査から約3ヶ月が経過し、10月に再度アンケート調査を実施しました。 本記事では、前回調査からの変化点を中心に、QA部におけるAI活用の現状と今後の展開についてご報告します。 developersblog.dmm.com

調査概要

調査の背景と目的

QA部においてAIツールの活用が徐々に広がっているものの、必ずしもその実態が明確ではありませんでした。どのような業務でどの程度活用されているのか、どのような課題があるのかを把握し、効果的な支援策を検討するために、今回の調査を実施しました。

調査の主な目的は、QA部内でのAIツール活用状況の可視化、業務プロセス別の利用率とレベルの把握、そして活用における課題や要望の洗い出しです。これらの情報を基に、組織全体のAI活用をより効果的に促進していくための方針を策定することを目指しました。

調査方法と回答状況

調査は2025年10月3日から10月17日までの10日間で実施し、QA部メンバー全員(SES含む)を対象とし、回答率は96.30%で、52名の皆さんに回答していただきました。

調査では、各業務プロセスでのAI活用レベルを測定するために、私たちが定義しているAXレベル(未活用・助手・協働・置換・自律の5段階)を用いました。このレベル分けにより、単純な利用の有無ではなく、どの程度まで業務にAIが組み込まれているかを詳細に把握しています。

対象業務プロセス

今回の調査では、QA部の業務を「テスト計画」「テストのモニタリングとコントロール」「テスト分析」「テスト設計」「テスト実装」「テスト実行」「テスト完了」「ルーチンワーク」の8つのプロセスに分類しました。

対象業務プロセス

AXレベル定義

私たちはAI活用のレベルを以下の5段階で定義しています。助手レベルは人主導でAIが補助する段階で、AI活用度は25%程度です。 協働レベルでは人とAIが分業し、AIが処理・予測を行い人が判断する関係で、活用度は50%程度となります。 置換レベルではAI主導で人が監視する形となり、活用度は75%程度まで高まります。 もっとも高度な自律レベルでは、AIが自律的に判断し実行する段階で、活用度は100%に達します。

なお、QA部では活用度の目標を50%(協働レベル)に設定しており、人とAIが適切に役割分担しながら協働する状態を目指しています。

AXレベル定義

調査結果

AIツール利用率は9割に到達、Cursorの導入が活用を加速

7月調査と比較して、AIツール全体の利用率は約9割に達しました。新規参画メンバーがいるため一部「なし」が残っていますが、ほぼ全メンバーがAIツールを活用している状況です。この高い利用率は、QA部内でのAI活用が単なる試験的な取り組みから、日常業務に不可欠なツールへと変化していることを示しています。

ツール傾向

利用ツールの変化(7月→10月):

  • Gemini: 35名 → 34名(ほぼ横ばい)
  • NotebookLM: 30名 → 23名(7名減少)
  • Claude(Desktop含む): 24名 → 23名(ほぼ横ばい)
  • Cursor: 2名 → 18名(16名増加、9倍)
  • GitHub Copilot: 2名 → 5名(3名増加)
  • 使用なし: 6名 → 2名(4名減少)

特に注目すべきは、Cursorの利用者が2名から18名へと9倍に増加した点です。Cursorを部内推奨ツールとして展開し、その特徴である「トークン制限が少ない」「コードエディタ統合型で使いやすい」「フォルダ作成機能でコンテキスト管理が容易」といった利点を周知したことが、この大幅な増加につながりました。 メンバーからは「Claudeより使いやすい」「未来を感じた」「やれることも増えた」「初めに手順説明があり、誤りは少ない」といったポジティブなフィードバックも寄せられています。 一方で、NotebookLMの利用者が7名減少していますが、これは他のツールへの移行が進んだためと考えられます。

活用レベルは依然「助手レベル」が主流、目標との乖離が課題

部全体傾向

全業務プロセスを通じて、AI活用度25%以下の「助手レベル」が依然として主流です。全プロセスの平均利用率を見ると、もっとも高いテスト完了で28.57%、もっとも低いテスト実行で7.04%となっており、目標としている50%以上の「協働・置換レベル」への移行が今後の重要なテーマとなっています。

7月調査から3ヶ月が経過し、AIツールの利用率は向上したものの、活用の深度という観点では大きな進展が見られていません。これは、AIツールを「使ってはいるが、まだ試行錯誤の段階」というメンバーが多いことを示唆しています。実際、アンケートの自由記述では「使い方がよくわからない」「プロンプトの作成方法が難しい」といった声が多く寄せられました。

ただし、チーム別に見ると明暗が分かれており、QAグループ第3チームは置換レベルを維持し、第2チームも協働レベルへ明確に進展しているなど、先進的な取り組みを行っているチームも存在します。今後は、これらの先進チームの成功事例を横展開することで、部全体の活用レベルを底上げしていく必要があります。

業務プロセス別の変化

進展が見られるテストプロセス領域

テスト分析・設計・完了:協働レベルへの移行が進む

テスト分析では、50%・100%利用層が全項目で増加しました。特に「テストすべき要件の列挙」や「テスト観点の洗い出し」で高利用率層が拡大し、メンバーからは「機能観点の見落としがほぼなくなった」という具体的な成果が報告されています。

テスト設計では、「新規/変更テストのテストケース生成」で50%利用が8件、100%利用が5件と、高利用率層が大幅に増加。「テスト設計工数が大幅に短縮できた」という声が上がっています。

テスト完了は、全プロセスの中でもっとも高い平均利用率28.57%を記録。「テスト完了レポートの作成/報告」では、0%利用が減少し、50%・100%利用が大幅に増加しました。

ルーチンワークでも、「プロダクト・品質評価」「本番不具合/障害管理」「障害検知」で高利用率層の拡大が顕著です。

課題が残るテストプロセス領域

テスト実行は、平均利用率7.04%と全プロセスの中でもっとも低い値です。実際にシステムを操作してテストを行う作業であり、現在主流のテキストベースのAIツールでは直接的な支援が難しいという特性があります。

テストのモニタリングとコントロールも、平均利用率11.82%と低水準に留まっています。プロジェクト管理やマネジメントに関わる業務であり、複雑な判断や意思決定を伴うため、AIでの自動化が難しいという特性があります。

チーム別の特徴的な傾向

QAグループ 第1チーム:基盤作りの段階

活用レベルは助手レベル中心ですが、新規参画メンバーが多く、まずはQA業務の基礎をしっかりと身につけることを優先しています。 AIを学習ツールとして活用し、基本スキルの習得とAI活用スキルの向上を両立させる慎重なアプローチを取っています。 特にルーチンワーク領域において、オンボーディング・質問対応やふりかえり/ポストモーテム作成での活用が進んでおり、日常業務の改善にAIを活用する基礎が固まりつつあります。

QA1

向上したテストプロセス業務(5%以上)

業務プロセス タスク名 7月 平均活用率 10月 平均活用率 増加ポイント
ルーチンワーク QA業務のオンボーディング・質問対応 0.0% 10.0% 10.0%
ルーチンワーク ふりかえり/ポストモーテム作成/恒久対応 10.0% 27.5% 17.5%

QAグループ 第2チーム:協働レベルへ明確に進展

7月時点では「高度活用への移行が課題」とされていましたが、10月調査では劇的な進展が見られました。 テスト分析、テスト設計、テスト実装、テスト完了の各プロセスで着実な向上が確認され、全体として協働レベルへの移行が明確に進んでいます。 特にテスト実装での大幅な向上が注目されます。チームリーダーの強いコミットメントと、Cursor導入の積極的な推進が、これらの成果につながっています。

QA2

向上したテストプロセス業務(5%以上)

業務プロセス 2025年7月 平均活用率 2025年10月 平均活用率 増加ポイント
テスト分析 27.6% 34.0% 6.4%
テスト設計 28.0% 33.3% 5.3%
テスト実装 16.8% 27.8% 11.0%
テスト完了 16.0% 24.6% 8.6%

QAグループ 第3チーム:最先進チーム

テスト分析、テスト設計ともに協働レベルを大きく超え、置換レベルに近い水準を維持しています。 今回の調査では15項目で大幅な向上が確認されました。 テスト分析領域では、曖昧な要件の明確化や既存システムの仕様把握/整理での飛躍的な進展が見られ、上流工程でのAI活用が高度化しています。 テスト計画領域でも、テスト戦略の策定やテスト計画書の作成で活用が進んでいます。 さらに、ルーチンワーク領域では、障害検知や本番不具合/障害管理での活用が大幅に拡大し、運用面でもAIの活用が浸透しています。 過去のテストケースやプロジェクトのナレッジをAIに学習させることで、プロジェクト固有の文脈を理解した提案を得られるようにしており、これらの高い活用レベルを実現しています。

QA3

向上したテストプロセス業務(5%以上)

業務プロセス タスク名 7月 平均活用率 10月 平均活用率 増加ポイント
テスト計画 テスト戦略の策定 4.3% 12.5% 8.2%
テスト計画 テスト体制立案 2.9% 11.4% 8.5%
テスト計画 テスト計画書の作成 11.4% 26.7% 15.3%
テストのモニタリングとコントロール テスト結果/実行進捗の集計、分析 8.8% 17.4% 8.6%
テストのモニタリングとコントロール テスト進捗レポートの作成/報告 13.0% 25.0% 12.0%
テスト分析 既存システムの仕様把握/整理 25.0% 44.4% 19.4%
テスト分析 曖昧な要件の明確化 25.0% 47.8% 22.8%
テスト分析 想定不具合の列挙 (テスト観点補完) 29.8% 40.0% 10.2%
テスト分析 テスト観点(テスト条件)の洗い出し 36.5% 45.9% 9.4%
テスト設計 新規/変更テストのテストケースの生成 28.0% 40.0% 12.0%
テスト設計 テスト設計書のレビュー 22.5% 41.8% 19.3%
テスト完了 テスト完了レポートの作成/報告 21.6% 36.9% 15.3%
ルーチンワーク プロダクト品質評価 4.0% 20.0% 16.0%
ルーチンワーク 本番不具合/障害管理 2.0% 22.2% 20.2%
ルーチンワーク 障害検知 0.0% 22.2% 22.2%

デバッググループ:着実な進捗

平均利用率は助手レベルに留まりますが、7月と比較して着実に進捗しており、今後の活用拡大に期待が持てます。 今回の調査では20項目で向上が確認され、全チームの中でもっとも多くの業務プロセスで改善が見られました。 テスト分析領域では、テスト観点の優先順位付けやレビュー、要件の列挙といった重要業務での活用が大幅に進展しています。 テスト設計領域では、リグレッションテストのテストケース選定やテスト設計書のレビューで顕著な向上が見られました。 ルーチンワーク領域でも、障害検知、本番不具合/障害管理、ふりかえり/ポストモーテム作成など、運用・改善業務での活用が大きく進みました。 特にGASを活用したルーチンワークの業務自動化を積極的に進めており、幅広い業務プロセスでの着実な活用拡大が確認できます。

DEBUG

向上したテストプロセス業務(5%以上)

業務プロセス タスク名 7月 平均活用率 10月 平均活用率 増加ポイント
テスト計画 テスト戦略の策定 0.0% 12.5% 12.5%
テスト計画 テスト工数見積もり 0.0% 8.7% 8.7%
テストのモニタリングとコントロール テスト実行工数の再見積もり 2.2% 10.0% 7.8%
テストのモニタリングとコントロール テスト工数集計、分析 2.2% 17.4% 15.2%
テスト分析 既存システムの仕様把握/整理 2.5% 14.4% 11.9%
テスト分析 曖昧な要件の明確化 1.9% 13.9% 12.0%
テスト分析 テストすべき要件の列挙 (テスト観点の洗い出し) 10.0% 26.0% 16.0%
テスト分析 想定不具合の列挙 (テスト観点補完) 6.8% 16.9% 10.1%
テスト分析 テストデータパターンの洗い出し 5.0% 11.1% 6.1%
テスト分析 テスト観点(テスト条件)の優先順位付け 5.0% 27.0% 22.0%
テスト分析 テスト観点(テスト条件)のレビュー 5.0% 26.4% 21.4%
テスト設計 新規/変更テストのテストケースの生成 15.0% 28.0% 13.0%
テスト設計 リグレッションテストのテストケースの選定 0.0% 26.0% 26.0%
テスト設計 テスト設計書のレビュー 6.2% 28.4% 22.2%
テスト実装 手動テストシナリオ(テストプロシージャー)の作成 0.0% 7.9% 7.9%
テスト実装 テストデータの作成(アカウント、入力/出力) 0.0% 5.3% 5.3%
テスト完了 テスト完了レポートの作成/報告 2.5% 14.6% 12.1%
ルーチンワーク プロダクト品質評価 2.0% 10.0% 8.0%
ルーチンワーク 本番不具合/障害管理 1.8% 22.2% 20.4%
ルーチンワーク 障害検知 0.0% 22.2% 22.2%
ルーチンワーク ふりかえり/ポストモーテム作成/恒久対応 1.7% 22.8% 21.1%

前回からの変化と活用による効果と成果

7月調査からの主な変化

3ヶ月間で、QA部のAI活用は量的・質的にも大きく進展しました。

AIツール利用率の向上

  • AIツール利用率:約9割に到達(7月から継続的に高水準を維持)
  • Cursor利用者:2名 → 18名(9倍)
  • 使用なし:6名 → 2名(活用メンバーがさらに増加)

活用範囲の拡大

進展した業務プロセス:

  • テスト分析:50%・100%利用層が全項目で増加し、協働レベルへ移行
  • テスト設計:「新規/変更テストのテストケース生成」で高利用率層が拡大
  • テスト完了:全プロセスでもっとも高い平均利用率28.57%を記録
  • ルーチンワーク:日常業務での定着が進む

新たな活用領域の開拓

コード・開発支援が4倍に増加:

  • 7月:2件 → 10月:8件(4倍)
  • プログラミング知識不要でツール作成が可能に
  • GASコード、業務効率化ツール、自動テストレポート生成など

活用による具体的な効果

1. 作業効率化の更なる進展

10月調査では、7月調査から以下のような更なる効率化が報告されています。

時間削減の進化:

  • テストケース生成の時間が70%削減(7月は工数削減の実感レベル)
  • テスト設計工数が2日から1日に短縮(50%削減)
  • 自動テスト結果レポート生成により、結果確認作業が大幅に効率化

業務の質的変化:

  • 自己完結して前に進められるタスクがさらに増加
  • 簡単なスクリプトなら自分で作れるようになり、開発チームへの依頼が減少

2. 品質向上の具体的実現

7月調査では「抜け漏れ観点の発見」として報告されていた効果が、10月には具体的な成果として現れています。

見落とし防止の成果:

「機能観点の見落としがほぼなくなった」

この声は、7月時点での期待が実際の成果として実現したことを示しました。

3. ツール開発の促進:新たな変化

7月調査では「コーディング習得支援」として報告されていた内容が、10月には具体的な成果として結実しました。

プログラミング知識の実践的習得:

「コーディングの基礎知識が身につく。AIが生成したコードを読むことで、プログラミングの構造を理解できるようになってきた」

新たに可能になったこと:

  • GASコードだけでなく、Pythonスクリプト、シェルスクリプトなど多様なツール作成
  • テスト結果の集計や不具合データの分析など、定期的に行う作業の自動化ツール開発
  • 自動テスト結果レポート生成ツールの作成(7月時点では報告なし)

4. Cursorによる活用の質的転換

Cursor利用者は、7月調査時点の2名から10月には18名に増加しました。 これにより、AI活用の質が大きく変化しました。

Cursorによる新しい効果:

「フォルダ作成機能が充実している。プロジェクトごとにコンテキストを管理できるのが便利」

「初めに手順説明があり誤りが少ない。Cursorは、何をすべきか段階的に提案してくれる」

これらは7月調査時点では報告されていなかった、ツール移行による新たな効果です。

困りごと・課題

今回の調査により、前回から引き続きの課題もありますが、以下の主要な課題があります。

課題カテゴリ 件数 主な内容
トークン制限・使用制限 12件 最多の課題であり、継続的な活用を阻む最大の障壁。週単位の使用制限、トークン上限に達する、使用上限制限により継続利用が困難、新規で要件の共有は手間
精度・出力品質の問題 10件 次いで多い課題。誤った出力が続く、不備が散見される、一度間違うと修正が効かない、おかしいところをずっと引きずる、トークン上限の関係で一部の要件で推察して残りを出してしまう
使い方がわからない 8件 どのツールを使えばよいか不明、操作方法が分からない、勉強不足を実感、やりたいことはあってもどのツールを使ってどうやって作成するかがわからない
プロンプト改善が必要 5件 想定した回答が得られない、指示の出し方が難しい、プロンプトの内容をもう少し良くしたい
スプレッドシート連携 4件 表形式での出力ができない、スプレッドシートへの直接反映ができない、スプレッドシートの表の構成を理解させて表形式で出力できない
人間チェックが結局必要 4件 AI出力結果の確認に時間がかかる、結局全数チェックが必要になる、手動作成以上にチェックに時間を要する
Cursorの使い方 3件 基本的な使い方が分からない、エディタ機能を活用できていない、もっと効果的に使いたい

技術的な制約とツールの成熟度が、更なる業務展開の妨げとなっている状態です。 今は、これらの課題を解消するために改善アクションを実施しています。

今後の改善アクション

アクション

1. テスト実行プロセスの強化

Playwright MCPやDifyを活用したAIによるテスト実行の強化

テスト実行プロセスは平均利用率7.04%と全プロセスの中でもっとも低い水準に留まっています。この課題に対応するため、Playwright MCPやDifyといった新しいツールを活用したAIによるテスト実行の強化を進めていきます。 特に、他チームのベストプラクティスを横展開することで、部全体のテスト実行プロセスにおけるAI活用レベルを底上げしていきます。具体的には、週に一回の定期的な適用フォローを通じて、実際の案件にこれらのツールを積極的に適用しています。また、直近ではモバイルアプリを対象にMaestroのMCP機能の利用も検討しています。

2. ツール環境の整備

Cursorへの完全移行推進

今回の調査でCursor利用者が2名から18名へと大幅に増加し、その有効性が確認されました。 しかし、「Cursorの使い方が分からない」という課題も3件報告されています。 この状況を踏まえ、Cursorへの完全移行を段階的に推進していきます。 まずは各チームのリーダーやキーパーソンを中心に導入を進め、チーム内での活用ノウハウを蓄積します。 その後、チームごとに順次移行を進めることで、混乱を最小限に抑えながらQA部全体での標準化を図ります。 また、Cursorの基本的な使い方から高度な活用方法までをカバーするために定期的な活用フォローを実施し、メンバーのスキルレベルに応じて支援します。

トークン・使用期限制限の緩和

今回の調査で最多の課題として挙げられたトークン制限・使用制限(12件)に対しては、複数のアプローチで対応します。 まず、Vertex AIなどの他のAPIサービスの活用を検討し、複数のサービスを組み合わせることで、実質的な使用制限の緩和を目指します。 同時に、トークンを効率的に使う方法(例えば、安価なモデルに切り替える)についての事例共有や活用フォローを行います。 これにより、限られたトークンでより高い成果を得られるスキルを部全体で向上させていきます。

3. Vibe Codingの推進による業務自動化の加速

今回の調査では、コード・開発支援の活用が7月の2件から10月の8件へと4倍に増加し、プログラミング知識がないメンバーでもツール作成ができるようになったという成果が報告されています。 この流れをさらに加速させるため、Vibe Coding(AIを活用した直感的なコーディング)の推進を強化していきます。 現在、メンバーは業務を自動化するBot開発や、工数集計ツール、不具合・障害分析ツールの開発に積極的に取り組んでいます。

これらの取り組みは、単なる作業効率化にとどまらず、データ分析スキルやプログラミングスキルの実践的な習得にもつながっています。 今後は、これらの成功事例を部内で共有し、「自分でもできる」という自信をメンバー全員に持ってもらうことを目指します。 具体的には、実際に開発されたツールのデモンストレーションや、開発プロセスや構成管理プロセスを解説するワークショップを実施する予定です。 Vibe Codingの推進により、QAエンジニアが単にテストを実行するだけでなく、自ら業務を改善するツールを開発できる「開発もできるQAエンジニア」への成長を促進していきます。

おわりに

今回の調査を通じて、QA部におけるAI活用が着実に進展していることが確認できました。AIツール利用率が9割に達し、特にCursorの導入により活用の幅が大きく広がりました。一方で、「助手レベル」から「協働・置換レベル」への移行という、次のステージへの課題も明確になりました。

特筆すべきは、プログラミング知識がないメンバーでもツール作成ができるようになったことです。これは、大きな変化であり、QA部全体のスキルレベル向上につながっています。また、「機能観点の見落としがほぼなくなった」という声に代表されるように、品質向上の面でも具体的な成果が現れています。

課題としては、トークン制限やAI出力の精度問題、スキル・ナレッジ不足などが挙げられます。これらに対しては、Cursorへの完全移行やDifyの活用検討、MCPなどのツール連携推進、AI利用の定期的なフォローの実施といった具体的な改善アクションを実施しています。

QA部では、今後も定期的な調査を実施し、進捗を可視化しながら改善を続けていきます。QAという業務の特性を活かし、AIの出力を適切に検証・品質保証するノウハウを蓄積することで、他部署のモデルケースとなることを目指します。

個別の適用事例に関しては、各チームメンバーからブログを投稿予定ですのでそちらもご期待ください。