┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2024年12月号 ( Vol. 17, No. 7 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
冬晴れが心地よい師走の候,皆様におかれましてはお変わりなくお過ごしでしょ
うか.ますますご多忙の時期に恐れ入りますが,お体にお気をつけて良き新年を
お迎えください.皆様のご健康とご多幸をお祈り申し上げます.
さて,本号では,10月に開催されました,推薦システム分野における世界最高峰
のトップカンファレンス「 ACM RecSys 」をはじめ,情報検索,データベース,
ナレッジマネジメントやマルチメディア,自然言語処理分野での最重要国際会議
「 ACM CIKM 」,「 ACM Multimedia 」と「 EMNLP 」についてご寄稿いただ
きました.それぞれの会議の特徴や最近の傾向,トップカンファレンスへの投稿
のメリット,論文採択に至るまでの工夫など,皆様のご参考になれば幸いです.
本号ならびに DBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてのご意見がございましたらnews-com [at] dbsj.orgまでお寄せください.
DBSJ Newsletter 編集委員会
(担当編集委員 王 元元)
========================================================================
----
目次
----
1. ACM RecSys 2024 参加報告
佐藤 政寛 富士フイルム株式会社
2. ACM CIKM 2024 参加報告
董 于洋 NEC 生成AI技術開発統括部 & データサイエンスラボラトリー
3. ACM Multimedia 2024 参加報告
松平 茅隼 名古屋大学
4. EMNLP 2024 参加報告
肖 川 大阪大学
========================================================================
■1■ ACM RecSys 2024 参加報告
佐藤 政寛 (富士フイルム株式会社)
2024年10月14日から18日までイタリアのバーリで開催されたRecSys 2024 (18th
ACM Conference on Recommender Systems)に現地参加してきました.RecSys
は推薦システム分野のトップカンファレンスです.
参加者数は1,123 名(うち現地参加者 919 名)で,コロナ前に参加したときと同
様の盛況さを感じました.メインカンファレンスはシングルトラックで行われ,
絢爛な劇場舞台での口頭発表でした.Research Papersの採択数は Full Paperが
58本,Short Paperが39本で,どちらも採択率は 22%とのことでした.また今年
は論文審査過程で Author Rebuttal がありました.( RecSys 2021 で同様の
Clarification Phaseが一度導入されましたが,3年ぶりの再導入) .
キーノート講演は 3件あり,1)ユーザのニーズに寄り添った Human-Centered
Explainable AI ,2)経済学の観点を導入したAI研究(全体最適,不確実性評価,
報酬設計),3)Spotifyにおける実践的研究(新規ユーザへの推薦や新規サービ
スのアイテムの推薦など)に関する講演でした.研究トレンドとしてはLLM (大
規模言語モデル) の活用が増えており,中でもLLMを用いた学習データ生成や推
薦の評価は比較的新しい活用法と思われます.また新規データセットとして,ア
イテム視聴前の事前期待値を収集したMovieLens Belief Dataset,ナレッジワー
カーの情報アクセスを記録した RLKWiC Datasetが公開され,新しい研究につな
がると期待されます.
私は Short paper として採択された
「Calibrating the Predictions for Top-N Recommendations」
をポスターで発表しました.推薦モデルのアイテムに対する予測値は,ランキン
グに用いる以外にも,ユーザに提示して意思決定の判断材料になるなど様々な用
途があります.そのためモデルの出力値を真の期待値にマッピングするキャリブ
レーション手法が研究されてきました.しかし従来手法は推薦される上位アイテ
ムに対しては過大評価や過小評価が生じることを本研究で示し,対処するための
評価指標および学習手法を提案しました.
最後に,来年の RecSys 2025 は9月にチェコのプラハでの開催予定で,投稿締切
は過去の傾向から4月頃と予測されます.ぜひ投稿をご検討ください.
著者紹介:
佐藤 政寛 (富士フイルム株式会社)
富士フイルム株式会社主任研究員. 2005 年に東京大学理学系研究科物理学専攻
修士課程修了,同年富士ゼロックス株式会社に入社.2020年に筑波大学システム
情報工学研究科知能機能システム専攻博士課程修了.2022年富士フイルム株式会
社に移籍.推薦技術を中心にしつつも広く機械学習・統計解析を用いた研究開発
に従事.
------------------------------------------------------------------------
■2■ ACM CIKM 2024 参加報告
董 于洋 (NEC生成AI技術開発統括部&データサイエンスラボラトリー)
CIKM (The Conference on Information and Knowledge Management) は情報と
知識のマネジメント,データマイニング,レコメンデーションシステムの分野の
難関会議で, 2024年10月21日から 25日にかけてアメリカのアイダホ州の州都ボ
イシで開催されました.ボイシはアメリカの最も治安が良いTop 5の都市であり,
まるで日本と勘違いするほどの綺麗で自然風景もとても美しいところだと感じま
す.全体の参加者は 900人弱で,そのうち学生が全体の半分を占めていました.
Full Paperが1,400件ぐらいの投稿で採択率が 23%でした.Short Paper でも800
弱件の投稿があり,採択率が 25% とやや厳しいものでした.
私と,大阪大学の張皓辰さんと肖川先生と共に
「On the Use of Large Language Models for Table Tasks」
というチュートリアルを発表しました.このチュートリアルでは,LLM (大規模
言語モデル) が提案され普及してからの 2年間で,LLM を活用して表データの問
題を解決する研究および動向を紹介します.具体的には,大規模言語モデルの利
用を以下の5つの側面:prompt,finetune,RAG,agent,VLM に分類し,それ
ぞれのカテゴリにおける最新の研究を紹介します.また,自分の LLM の訓練お
よび性能向上の経験,そして実際の顧客の案件からの経験にも基づき,RAG や
TableQAといった表データを扱う際に直面する実際の課題,解決策,最適化手法
についても説明しました.すべての資料がウェブ [1] で一般公開なので,ぜひご
覧ください.
最後に,来年のCIKM 2025は Seoul, Korea で開催される予定です.
[1] チュートリアルの資料,
On the Use of Large Language Models for Table Tasks, CIKM 2024,
https://dongyuyang.github.io/tableLLM-tutorial/
著者紹介:
董 于洋 (NEC生成AI技術開発統括部&データサイエンスラボラトリー)
NEC生成AI技術開発統括部 & データサイエンスラボラトリー 主任研究員.2019
年に筑波大学で博士号を取得し,同年に NEC に入社.NEC の大規模言語モデル
cotomi シリーズについて研究開発に従事.
------------------------------------------------------------------------
■3■ ACM Multimedia 2024 参加報告
松平 茅隼 (名古屋大学)
オーストラリアのメルボルンにて2024年10月28日から11月1日の期間中開催され
た,マルチメディア分野のトップカンファレンスである ACM Multimedia 2024
(ACM MM 2024) に参加し,筆頭著者である論文の発表を行いました.昨年はカ
ナダのオタワでの開催で,ビザの関係で多数の方が現地参加できない状態でした
が,今年はその点は問題なさそうで,学会会場は昨年より遥かに多くの参加者の
方々で賑わっていました.
本会議では, Tutorials,Workshops,Grand Challenges の他,大学・企業問わ
ず活躍されておられる研究者の方々による Keynote Talks や Panel Discussion
Session,企業研究の在り方を知ることができるIndustry Sessionsなど,様々な
魅力的なイベントが開催されました.また,本会議に採択されたRegular Papers
(採択率: 1149/4385 = 26.20%のすべてに対してポスター発表の機会が,一部
の論文(174/4385 = 3.97%)には口頭発表の機会も与えられました.
私たちの論文は,Stable Diffusion などに代表される Text-to-Image 生成モデル
が複数の概念を生成画像中で混合する現象(Conceptual Blending)を定量的に
評価し,それを我々が常日頃から研究している非語から画像生成する手法
( Nonword-to-Image Generation )へ適用したという内容でした.幸運なこと
に,本論文は口頭発表論文として選出されたため,私は口頭発表とポスター発表
の両方を行いました.私の口頭発表では,偶然にも Keynotes と同じ会場が割り
当てられました.そのため,学生身分である私に対して驚くほど広い会場での発
表となり,貴重な経験を積むことができました.発表の所感としては,本会議参
加者の多くの方が,言語モデル・画像生成モデルの潜在空間を調査する本研究の
トピックに興味を持ってくれたと感じます.
更に幸運なことに,我々の論文は Best Paper Award にもノミネート(26/4385
= 0.59% )されました.そのため,受賞論文の発表が行なわれるバンケットへも
学生ながら参加しました.そのバンケット Gala Dinner では,現地のバンドThe
Baker Boysによる生演奏と共に豪華な料理が提供されました.残念ながら受賞は
叶いませんでしたが,会議や参加者の雰囲気に触れるまたとない機会となりまし
た.途中から 23 時まではバンドの音楽に合わせてダンスするディスコのような
イベントでしたが,日本人の性に合わないためか,私を含め多くの日本人は途中
で帰っていました.
次回の ACM Multimedia 2025 はアイルランドのダブリンで開催予定です.本会
議はトップカンファレンスながら極度に真面目過ぎるわけでも緩すぎるわけでも
なく,私にとって居心地のよい雰囲気の会議だと感じます.そのような会議が好
きな方,ダブリンに興味のある方は,ぜひ本会議への投稿をご検討ください.
著者紹介:
松平 茅隼 (名古屋大学)
名古屋大学大学院情報学研究科知能システム学専攻博士後期課程3年.2020年3月
に名古屋大学工学部を卒業, 2022年3月に同大学大学院情報学研究科知能システ
ム学専攻博士前期課程を修了,2022年4月より現在の所属に至る.自然言語や画
像を対象としたマルチメディア処理,特に自然言語に対する人間の知覚のモデリ
ングに関する研究に従事.
------------------------------------------------------------------------
■4■ EMNLP 2024 参加報告
肖 川 (大阪大学)
【開催形態】
2024年11月12日から 16日にかけて,フロリダ州マイアミのハイアットリージェ
ンシーホテルで開催された自然言語処理の国際会議 The 2024 Conference on
Empirical Methods in Natural Language Processing (EMNLP 2024) に参加しま
した.本会議は自然言語処理分野におけるトップクラスの学術会議で,データベ
ース研究者としては初めての参加となりました.会議は非常に充実しており,多
くの自然言語処理コミュニティの学生や若手教員と交流する機会がありました.
また,美しい都市や食事,ビーチの景色を楽しむことができましたが,ロサンゼ
ルスでの乗り換えを含む約20時間のフライトは少々大変でした.
【論文査読】
EMNLP 2024 には合計 6,105件の論文が提出され,そのうち 1,271件が EMNLP
Mainセクションで採択され,採択率は 20.8%でした.さらに,1,029件の論文が
EMNLP Findings セクションで採択されました.採択された論文の中で,LLM
(大規模言語モデル) と VLM (視覚言語モデル)が最も人気のあるトピックでした.
【私の発表】
私の論文については,EMNLP Main と EMNLP Findingsでそれぞれ1本ずつ採択
され,ポスターセッションで発表しました.EMNLP Main の論文では,LLM を
データ前処理に応用し,単一かつ低価格のGPUで動作する普遍的なデータ前処理
タスクソルバーとして,NECとの共同研究で開発した指示データを用いてLLMを
ファインチューニングしました.EMNLP Findings での論文では,競争環境にお
ける LLMエージェントの自発的な協力を研究し,3つの競争シナリオを通じて協
力の徐々に出現する様子をシミュレーションしました.この研究は人間の行動デ
ータと密接に一致しています.両方の発表は会議中,多くの聴衆から注目を集め
ました.
【おわりに】
来年のEMNLP 2025は中国の蘇州で開催される予定で,さらに多くの論文提出と
参加者増加が期待されています.私たちの研究チームも,データベース技術と自
然言語処理の統合をさらに深め,より高度なデータ処理手法の開発に向けた研究
を進めていく所存です.次回の会議では,これらの進展を共有し,同分野の研究
者との更なる交流を図ることを楽しみにしています.
著者紹介:
肖 川 (大阪大学)
2010年にニューサウスウェールズ大学で博士課程を修了. 2011年に名古屋大学
に入職.2014年に特任助教となり,2019年に大阪大学へ転職し,2021年に准教
授に就任,現在に至る.2019年度には上林奨励賞を受賞.データ管理およびデー
タサイエンス分野に従事しており,最近では大規模言語モデルに関する研究にも
取り組んでいる.
========================================================================
--
王 元元
山口大学大学院創成科学研究科
工学系学域・知能情報工学分野
(兼担:工学部知能情報工学科)
准教授 博士(環境人間学)
y.wang(a)yamaguchi-u.ac.jp
circl.wang(a)gmail.com
0836-85-9522
Yuanyuan Wang, Ph.D
Associate Professor, Department of Information Science and Engineering,
College of Engineering,
Graduate School of Sciences and Technology for Innovation, Yamaguchi
University, Japan
E-mail: y.wang(a)yamaguchi-u.ac.jp
circl.wang(a)gmail.com
Tel: +81-836-85-9522