日本データベース学会の皆様,

 

筑波大学の山本修平と申します.

 

現在,NTCIR-18 Transfer-2タスクの参加者を募集しています.

本タスクは,情報検索,生成AI,クロスリンガル情報アクセス,マルチモーダル検索技術などに

関係のある3つのサブタスクから構成されています.

各サブタスクは,技術的な関心や専門分野に応じて参加できるように設計されており,

これらの技術の発展に意欲的な参加者を歓迎しています.

 

皆様のご参加をお待ち申し上げます.

どうぞよろしくお願い致します.

 

======================================

NTCIR-18 Transfer-2タスクの参加者募集案内

Website: https://github.com/ntcirtransfer/transfer2/discussions/categories/announcements

 

NTCIR-18 Transfer-2は,「密ベクトル検索システム」の開発,および評価に焦点を当てたタスクです.

Transfer-2タスクは,検索拡張生成(RAG)や,マルチモーダルデータ(画像,センサ情報など),

複数の言語を対象とした密ベクトル検索技術の発展を促進します.このタスクの目的は,

情報検索技術の発展を通じて,多言語および多モーダルデータに対応した情報アクセスを促進し,

参加者が多様なデータに対して効果的な検索技術を開発できるよう支援することにあります.

 

Transfer-2は,以下の3つのサブタスクで構成されています

RAGRetrieval-Augmented Generation

DMRDense Multimodal Retrieval

DCLRDense Cross-Language Retrieval

 

参加者は、興味や専門に応じたサブタスクに参加することが可能です.各サブタスクの概要は以下になります.

 

## RAGRetrieval Augmented Generation)サブタスク

このサブタスクの目的は,検索拡張生成(Retrieval Augmented Generation; RAG)に適した検索モジュールを

開発することです.RAGサブタスクでは,「AI王〜クイズAI日本一決定戦〜」の協力により,

AI王で使用した質問・回答データセットを使用して評価を行います.

RAGサブタスクは,2つのステージに分かれて評価が行われます.

Stage1Retrieverモジュールの性能評価

 入力:自然言語の質問

 出力:質問に対して適したパッセージの検索結果

 評価指標: HitRate@k (k=1, 5, 10, 50, 100) および nDCG@k (k=1, 5, 10, 50, 100)

Stage2Fusion-in-Decoderの性能評価

 入力:パッセージの集合(Stage1の出力)

 出力:自然言語の回答

 評価指標: 正解率(Accuracy

 

## DMRDense Multimodal Retrieval)サブタスク

このサブタスクの目的は,画像やセンサ情報など,非言語モダリティを対象にした密ベクトル検索技術を

開発することです.特に,あるモダリティを入力したときに,別モダリティのデータの検索を可能にする

技術の構築を目指します.DMRサブタスクでは,「NTCIR-18 Lifelog-6」タスクのオーガナイザが配布する

ライフログデータ(一人称視点の画像や生体情報,位置情報など)を使用して評価を行います.

 データセット: NTCIR-18 Lifelog-6」タスクのライフログデータセット

        (一人称視点画像、生体情報、位置情報など)を使用します。

 入力:画像,もしくは,センサ情報

 出力:入力とは異なるモダリティのデータの検索結果

 評価指標:Mean Reciprocal Rank

 

## DCLRDense Cross-Language Retrieval)サブタスク

※本サブタスクのデータセットは現在構築中であり、変更される可能性があります。

このサブタスクの目的は,検索質問と検索結果の言語を横断可能な密ベクトル検索技術を開発することです.

DCLRサブタスクでは,日本語,英語,中国語のニュース関連文書から成るコーパスを使用し,

異なる言語間での情報検索を行います.

 データセット:2016年から2021年のニュース関連文書(CommonCrawlデータ)を利用.

        総文書数は200300万件を予定

 入力:日本語,英語,中国語の検索質問

 出力:検索質問とは異なる言語の検索結果

 評価指標: nDCG@kおよびLLM(大規模言語モデル)を活用した適合性評価

 

## 重要な日程

20241101日:タスクガイドライン,データセットのリリース

20241216日:タスク参加登録の〆切

20250113日:検索結果の提出〆切(サブタスクごとに変動する可能性あり)

20250201日:評価結果の返却

20250301日:参加者論文原稿の提出〆切

20250501日:カメラレディ原稿の提出〆切

20250610-13日:NTCIR-18 Conference

 

本タスクは,情報検索,生成AI,クロスリンガル情報アクセス,

マルチモーダル検索技術などに関心のある研究者,学生,業界の専門家に適しています.

各サブタスクは,技術的な関心や専門分野に応じて参加できるように設計されており,

これらの技術の発展に寄与する意欲的な参加者を歓迎します.

詳細は,公式ウェブサイト

https://github.com/ntcirtransfer/transfer2/discussions/categoriesannouncements

で確認できます.質問等がある場合は,サイト内のディスカッションフォーラムをご利用ください.

 

また、20241212日に早稲田大学で開催されるSIGIR-AP 2024併設ワークショップ

EMTCIR 2024https://emtcir2024.github.io/

でもタスク紹介発表を致しますので、お気軽にお問い合わせください。

 

オーガナイザ

上保秀夫(筑波大学)

欅惇志(一橋大学)

太刀岡勇気(デンソーアイティーラボラトリ)

山本修平(筑波大学)

 

--

Shuhei Yamamoto, University of Tsukuba