DMMデータサイエンスグループがSIGIR2024に参加しました!

サムネイル

はじめに

こんにちは!データサイエンスグループの田代です。本記事では先日参加したSIGIR 2024(https://sigir-2024.github.io/)の参加記録を共有します。

SIGIRの概要

SIGIRは情報検索技術の最前線に立つ国際会議であり、世界の研究機関による最先端の研究結果に加え、DMMのサービスに類似する企業の最新かつ先進的なアルゴリズムやユーザーインターフェースの改善策が共有されます。今年は7月14日~19日の日程でワシントンD.C.で開催されました。DMMのデータサイエンスグループは商品検索やレコメンドをデータサイエンスの知見を用いて改善しており、実務に応用可能な知見を得ることを目的に本会議に参加しました。

印象に残ったセッションと発表

発表

Large Language Models and Future of Information Retrieval: Opportunities and Challenges

本論文はLLMを情報検索に活用する方法や、活用するにあたって克服すべき課題について考察した見解論文です。本論文ではLLMを用いた情報検索システムが、1.LLMによって強化された検索エンジン 2.検索エンジンによって強化されたLLM 3.検索エンジンを使いこなすエージェントとしてのLLM の3段階で進んでいくと説明していました。データサイエンスグループではLLMの商品検索への活用が進んでいないため、特に 1.LLMによって強化された検索エンジン の内容に興味を持ちました。このフェーズではLLMをユーザーの検索意図をより表現したクエリに書き換える使い方や、検索結果を要約して返す使い方が紹介されていました。特にユーザーのクエリ作成の難しさはDMMでも現在力を入れている部分であり、LLMの活用を試していきたいと感じました。

Leveraging LLMs for Unsupervised Dense Retriever Ranking

本研究はラベルがない状況でのDense Retrieverの選択タスクにおいて、LLMによる擬似ラベル作成を提案した研究です。Dense Retrieverは、クエリとドキュメントをベクトルに変換して検索を行うモデルで、情報検索における主要なモデルの一つです。このDense Retrieverモデルの性能は、タスクコーパスのドメインと学習コーパスのドメインの違いによって大きく変化することがわかっています。そのため、自前のデータに対して最も機能する学習済みのモデルを選ぶことは、自前のデータにラベルが十分についていない場合に困難です。そこで、本研究はLLMを用いて自前のデータに対応する擬似クエリと擬似類似スコアを作成し、自前のデータに対して十分に機能するモデルを選択することを可能にしました。以前に発表された論文でもLLMを情報検索に活用する方法が述べられていましたが、本研究の「擬似データを作成する」というアプローチは、LLMを効果的に活用する一つの方法として特に印象に残りました。

Characterizing Information Seeking Processes with Multiple Physiological Signals

本研究は情報検索におけるユーザー行動のプロセスを 1.情報要求の理解 2.クエリ形成 3.クエリ送信(音声入力やタイピング入力) 4.関連性の判断 のフェーズに分けた上で、それぞれのフェーズの認知的負荷や感情的反応をEEGを用いた実験で調べたものです。普段、我々がデータを分析しているだけでは調べづらいユーザーの反応について詳細に調査している点が興味深く感じました。本研究の結果で特に興味深かった点としては、 3.クエリの送信 の認知的負荷が 2.クエリ形成 や 4.関連性の判断 よりも大きかった点が挙げられます。ユーザーの検索を補助するという観点で、自分の直感的にはクエリの形成の補助の効果が大きそうだと感じていたのですが、この結果からクエリ送信の補助の効果が効果的である可能性も示唆されました。先のLLMの研究でもクエリ作成の補助が重要であるという知見を得ましたが、本研究によりどのようにクエリ作成を補助すべきかについて、より詳細な知見を得ることができました。

Scaling Laws For Dense Retrieval

本研究は、Dense Retrievalにおけるスケーリング則について調べたもので、Best paperに選ばれました。スケーリング則とはモデルのサイズや学習データ、学習の計算リソースが増えるにつれてモデルの性能が向上するという法則であり、LLMの発展の文脈で注目を集めている法則です。このスケーリング則は特にLLMの性能においてこれまで確認されてきましたが、本研究ではDense Retrievalについても適用可能かどうかを調べています。我々の検索システムにおいてもDense Retrievalは利用されており、その性能向上の方向性を考えるにあたって有用な知見を得ることができたため興味深く感じました。特に論文で提案されていた、所与の予算の中で最高の性能を達成するモデルサイズを選ぶ方法は、我々のモデルサイズに対するより深い考察の必要性を感じさせました。

To Search or to Recommend: Predicting Open-App Motivation with Neural Hawkes Process

本研究は、Neural Hawkes Processというモデルを用いて、ユーザーがアプリを開く動機がレコメンドを見るためであるか、検索を使うためかを予測するタスクを解いた研究です。ユーザーの検索行動の意図が案内型(特定のドキュメントに到達することを目的とした検索)や情報収集型(サービス上にある情報を集めることを目的とした検索)などいくつかに分類できることは以前から提案されていましたが、本研究は行動(初めに開くモジュールがレコメンドか検索か)を予測することで、その意図を予測できると示しています。実際に、本研究ではモチベーション予測モデルの中間出力を利用することで、通常のレコメンドモデルの性能が上がることを確認しており、ユーザー意図の理解が検索・推薦の分野で重要であることを改めて示唆しています。DMMではユーザーの好みのモジュール(好みのレコメンド)を予測して、表示順を変えることに取り組んでいますが、レコメンドや検索の中身の改善にもユーザー意図の情報は利用できると感じ印象に残りました。また、本研究ではユーザーがアプリを開いた時間や曜日、さらに前回の探索行動の結果がアプリを開く動機に与える影響についても調べており、これらのドメイン知識はDMMにも応用可能であると感じました。

An E-Commerce Dataset Revealing Variations during Sales

本研究はセールを含むようなドメインにおけるLTRのデータセットを提案した研究です。セール時のユーザー行動の変化はDMMにおいても観測されており、それがLTRに与える影響はDMMにおいても無視できないものだと感じ印象に残りました。本研究ではセールを含むデータセットを提供するだけでなく、LTRモデルがセールの日に性能が悪くなることを確認しており、セールなどのスパイクに頑健なモデルについても調査しています。DMMでもセールにおける性能低下について調査をしていく必要があると感じました。

オーラル発表の様子

ポスター発表の様子

keynote

Representation Learning and Information Retrieval

1日目のkeynoteではProf. Yiming Yangによる「Representation Learning and Information Retrieval」というタイトルで講演が行われました。Representation Learning(表現学習)とは画像やテキスト、その他様々なデータに対して、機械学習によって処理しやすい表現を獲得するための学習のことで、現在の情報検索の文脈では、検索のクエリや検索対象のドキュメントを表現するベクトルを獲得するために重要なトピックとなっています。本講演では、近年の情報検索技術の発展に大きく寄与した表現学習に関連した重要研究として以下の4つを取り上げ、それらの概要と将来展望について語りました。

1. Two-tower pre-training for large-scale dense IR

Two-towerモデルは、クエリとドキュメントの類似度を算出するための一般的なモデルであり、クエリとドキュメントをそれぞれベクトルに変換し、そのベクトルの類似度を予測します。このモデルの特徴として、ドキュメントのベクトル表現を検索時に計算する必要がなく、あらかじめ計算しておける点で計算効率が良いことが挙げられます。本パートでは、計算コストが高いモデル(例えばBERT)をTwo-towerモデルに適用するためのコツとして、正しいクエリとドキュメントの組み合わせの類似度を高く予測するための追加の事前学習の重要性が強調されました。そのために利用可能な擬似データ作成の方法として、ICT、BFS、WLPの三つが言及されていました。

2. Active Retrieval Augmented Generation

Retrieval Augmented Generation(RAG)はLLMなどによる言語生成において、関連する情報をデータベースなどから抽出して入力に加えることで出力の質を向上させる生成方法です。本パートでは、このRAGにおける重要なテーマとして、Active Retrieval Augmented Generation(ARAG)を挙げ、それに関連する研究としてFLAREという手法を取り上げました。FLAREは生成を行うモデル(LLM)が自分の出力の不確かさをもとに抽出を追加で行うかを決める手法で、この手法によって質問応答タスクの性能が向上することが紹介されていました。このARAGの例を基に様々な方向性のRAGの重要性が強調されていました。

3. Scalable Oversight of LLMs with Easy-to-Hard Generation

Scalable Oversightとは、LLMに代表されるAIシステムの性能が発展し、将来的に一部のタスクにおいて人間の性能を越す可能性があるという背景の中で、そのようなAIシステムを監視するAIシステムを作るタスクです。このタスクはAIシステムが発展し、人間の理解を越えるような出力をした際に、その出力の正しさを人間で行うのは難しいため、AIシステムによって評価しようとする動機によって生まれています。従来のAIシステムが人間の教師ラベルを用いてファインチューニングや強化学習を行い人間のレベルに近づくように学習していたのに対し、本タスクは教師を越えるように学習する必要があるという点で大きな違いがあります。本研究ではScalable Oversightのための研究として、簡単な数学のタスクにおける人間のラベルを基に難しい数学のタスクを解くモデルを提案しています。本研究のアプローチの概要は、簡単なタスクにおいて問題から回答を生成するLLM(方策モデル)と回答を評価するモデル(分類器)の二つを学習し、難しいタスクには方策モデルによって生成された回答と分類器によって出力された擬似ラベルを基に強化学習(RL-PPO)を行うというものです。このアプローチは回答を生成することよりも、評価をすることが簡単であるというアイデアに基づいており、数学以外にも応用可能なものだと考えられます。

4. Neural network learning beyond text(solving NP-Complete Problems)

本パートではテキスト以外の問題にLLMの技術を応用する例として、巡回セールスマン問題や最大安定集合問題といった、NP完全な問題に応用する例を挙げました。LLMで利用されている技術として生成モデルと評価を用いた強化学習がありますが、この技術を応用しグラフから解を生成し、その報酬を最適化するように学習することで、一定のサイズ問題を解くことができることを紹介しました。

keynoteの様子

banquetの様子

おわりに

今回の学会に参加した感想と学びについてまとめます。

まず、LLMに関する発表が多く、LLMと検索エンジンの関係の観点から将来的な情報検索システムを考えていくことが必要だと感じました。段階的な移行が重要であり、まずはクエリ作成の補助や要約、擬似データの作成といった具体的な実装が可能だと理解しました。

また、セールや曜日などが検索行動に与える影響についての発表も非常に参考になりました。特に時系列で変化するユーザー行動を考慮する必要性を強く感じました。

さらに、Banquetでは他社の検索・レコメンド開発者やアカデミアの研究者と交流することができました。同じ情報検索分野でも異なる興味・視点を持つ人々と話すことで、自分がこれまで興味を持たなかった分野についても新たな知見を得ることができ、大変有意義でした。

これらの新しい知識や視点を今後のプロジェクトや研究に活かし、より良い情報検索システムの開発に努めていきたいと思います。

最後に、DMM データサイエンスグループでは一緒に働いてくれる仲間を募集しています!またDMMの雰囲気を感じつつ成長できるようなエンジニア向けのインターンシップも用意しています!ご興味のある方は、ぜひ下記の募集ページをご確認ください!

dmm-corp.com