┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┃ 日本データベース学会 Newsletter
┃ 2023年8月号 ( Vol. 16, No. 4 )
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
本号では PAKDD 2023,SIGMOD 2023,ACL 2023 の3件の国際会議の参加報告をご
寄稿いただきました.それぞれの会議の様子や招待講演の内容,ご自身が発表さ
れた研究内容などについて紹介していただいております.ぜひご覧いただければ
幸いです.
本号ならびにDBSJ Newsletterに対するご意見あるいは次号以降に期待する内容
についてのご意見がございましたらnews-com[at]dbsj.orgまでお寄せください.
DBSJ Newsletter 編集委員会
(担当編集委員 山室 健)
========================================================================
----
目次
----
1. PAKDD 2023 参加報告
董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)
2. SIGMOD 2023 参加報告
新井 淳也(日本電信電話株式会社)
3. ACL 2023 参加報告
佐々木 勇和(大阪大学)
========================================================================
■1■ PAKDD 2023 参加報告
董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)
PAKDD (The Pacific-Asia Conference on Knowledge Discovery and Data
Mining) は知識発見とデータマイニングの分野の難関会議で、2023年5月25日
(木)から5月28日(日)にかけて大阪でグランフロント大阪というおしゃれな場所
に開催されました。発表者の5割、全体参加者の7割で合計200人弱が現場に集め
ていました。今年の論文の採択率は16.5%(143/869)で例年よりやや厳しいと感じ
まして、投稿数が多くカテゴリが Deep learning, Texts, webs and social
media , Graphs and networksでした。今年のキーノートとチュートリアルにつ
いて、一番印象深いのは東北大、東工大、NTTから行ったチュートリアルであり
、言語モデルの最新動向とChatGPTの能力の探索について丁寧に説明されました
。学会でのイベントも充実していますが、豪華な美味しい弁当をもらったり、空
中庭園展望台のチケットをもらったり、バンケットには歌舞伎の上演もあり、参
加者が楽しんでいました。
私は「QA-Matcher: Unsupervised Entity Matching Using A Question
Answering Model」について発表しました。この研究は名寄せ(Entity matching)
というデータセット間の中に同じエンティティを同定するという問題を、自然言
語処理分野の質疑応答問題に変換して、事前学習済みのQAモデルを活用すること
で教師なしで解ける手法を提案しました。それの良い点は、(1)QAモデルが事前
学習する時に、エンティティと属性の関係の知識が含めた質疑応答データセット
もあり、それが名寄せの問題解決に役に立つ。(2)既存のモデルをpromptで調整
するzero-shot方式のため、学習が必要なくてコストが低いです。さらに、この
研究を行った段階ではChatGPTなどのOpenなLLMが流行っていないですが、今から
見るとこの方式のQAモデルをLLMに変換すると、 (3) 大規模言語モデル(LLM)の
instructionに従う能力とin context learning能力を使い、必要に応じて名寄せ
のパラメータを調整することができるという良い点も出られると思います。私が
所属した部署は、こういた言語モデルをいろんな分野に活用することについて研
究開発はしていますが、さらに先日に、世界トップクラスの高性能な日本語の大
規模言語モデル(LLM)[1] もスクラッチから開発しました。最後に、来年の
PAKDD24は Taipei, Taiwanで開催される予定です。
[1] NECの最先端技術 大規模言語モデル(LLM)を開発:
https://jpn.nec.com/rd/technologies/202308/index.html
著者紹介:
董 于洋 (Yuyang Dong)(NEC データサイエンスラボラトリー)
2019年筑波大学システム情報研究科博士課程修了。2019年よりNECデータサイエ
ンス研究所に入社。2021年特別研究員となり、現在に至る。データ探索、データ
統合、LLM for DB/ DB for LLMなどについて研究に従事。2021年度上林奨励賞。
最近はNEC大規模言語モデルの研究開発にも従事。
-----------------------------------------------------------------------
■2■ SIGMOD 2023 参加報告 新井 淳也(日本電信電話株式会社)
2023 年 6 月 18 日 〜 23 日にかけてシアトルで開催された ACM SIGMOD/PODS
International Conference on Management of Data(以下,SIGMOD 2023)に参
加し,論文を発表してきたことについて報告させていただきます.なお
8 月 5 日(土)に ACM SIGMOD 日本支部の講演会でも参加報告を予定しており
ますので,関心のある方はぜひご参加ください.
【開催形態】
SIGMOD はパンデミック以来オンラインまたはハイブリッド形式で開催されてき
ましたが,今年は完全に in-person に戻りました.参加者は 970 名以上で,こ
ちらもコロナ前の 2019 年と同じ水準でした.オンライン配信はありませんが,
キーノートや受賞講演は ACM Digital Library (DL) で今後公開されることにな
っています.また論文の著者は事前に発表の動画を提出しており,これは会議期
間中から ACM DL で観ることができました.この動画は著者が現地参加できなか
った場合に発表の代わりとしても上映されます.特に中国の著者はビザの問題で
欠席が相次ぎ,6 件中 3 件が著者欠席となったセッションもありました.コロ
ナの感染対策はまばらに消毒液などが置かれていた程度で,ほぼ全員ノーマスク
で参加している様子からはパンデミックなどなかったかのような印象を受けまし
た.また,SIGMOD では朝食と昼食が会議期間中ほとんどの日に用意されていま
す.円安の中大変ありがたいことです.
【査読】
今回の research paper の採択率は 28.2%(186/660 件)でした.昨年は 29.4%
(151/514 件)だったので,投稿と採択の両方が増え採択率は横ばいとなってい
ます.投稿に関する最近の動きとして,SIGMOD は VLDB のようにジャーナルに
近いスタイルへ移行しようとしています.まず今年から論文は Proceedings of
the ACM on Management of Data (PACMMOD) というジャーナルとして公開される
ようになりました.これに伴い,査読の時点では従来通り 2 カラムのカンファ
レンス形式で書いていた論文をカメラレディでは 1 カラムのジャーナル形式で
レイアウトし直す必要がありました.さらに SIGMOD 2023 では 4,7,10 月に
締め切りを設ける 3 サイクルの投稿スケジュールが採用されました.2022 まで
は 2 サイクル,2023 は 3 サイクルで,2024 は 4 サイクルとなっています.
昨年と今年に共通する傾向として投稿件数は後のサイクルの方が多く,採択率は
最初のサイクルが最も高くなっています.SIGMOD 2023 のそれぞれのサイクルの
採択率は 33.8%,25.7%,27.2% でした.
【プログラム】
私がグラフの研究をしているせいもありますが,今年はグラフに関するセッショ
ンの多さが目を引きました.論文数でも全体の3割程度がグラフ関連です.キー
ノートや受賞講演も興味深いものばかりで,特に SQL の設計者である
Don Chamberlin 博士の "49 Years of Queries" は講演後にスタンディングオベ
ーションとなり,データベース分野における影響力の大きさを感じました.また
Joseph M. Hellerstein 教授の Codd Innovations Award 受賞講演はビジュアル
的にインパクトの強いスライドが並んでいるので,動画が公開されたらぜひご確
認ください.
【新井の発表】
今回私が発表した論文"GuP: Fast Subgraph Matching by Guard-based Pruning"
は私と同じく NTT の藤原,および阪大の鬼塚先生との共著です.DEIM 2018 で
「探索失敗履歴を用いた高速サブグラフマッチング」として基本的なアイデアを
発表してから紆余曲折あり時間がかかりましたが,無事今年 SIGMOD に採択され
ました.サブグラフマッチングは大きなグラフの中でクエリグラフと同型な構造
を検索します.これはテキストデータにおける文字列検索と同じように極めて基
本的な問題で,グラフデータベースのクエリ処理や金融取引データを元にした不
正行為の検出など様々な場面で必要とされます.しかしサブグラフマッチングは
NP 困難問題であり,最新の手法でも僅か 8 頂点のクエリグラフすら現実的な時
間内に処理できないことがあります.そこで私たちはより多様なクエリグラフを
安定して高速処理可能なアルゴリズムである GuP (Guard-based Pruning) を提
案しました.既存手法で少なくとも 1 時間以上を要するクエリグラフの多くを
GuP は 1 分以内に処理できます.詳細は論文をどうぞご確認ください.
【おわりに】
私は海外では HPC 系の会議に参加することが多くデータベース系の国際会議は
今回が初めてでしたが,グラフをはじめ共通する研究テーマが多いので大変勉強
になりました.また,現地でたまたま話した方が私たちの提案手法 (Rabbit
Order [Arai+ IPDPS'16]) を研究で使っていると伺い,モチベーションの面でも
大いにプラスでした.来年の SIGMOD はチリの首都であるサンティアゴで開催さ
れます.ほとんど地球の裏側に位置しなかなか行く機会がない場所だと思います
ので,チャンスのある方は参加してみてはいかがでしょうか.
著者紹介:
新井 淳也(日本電信電話株式会社)
2013 年に東京大学大学院情報理工学系研究科修士課程を修了後,日本電信電話
株式会社に入社.社会人博士として 2019 年に大阪大学大学院情報科学研究科博
士後期課程を修了.博士(情報科学).効率的なグラフ処理アルゴリズムや並列
分散処理の研究,および GPU やイジングマシンを用いた計算機システムの開発
に従事.日本データベース学会,ACM 各会員.
-----------------------------------------------------------------------
■3■ ACL 2023 参加報告 佐々木 勇和(大阪大学)
ACL 2023の参加報告を致します.ACLは言わずと知れた自然言語処理のトップ会
議になります.第61回目となるACL 2023は7月9日から14日にカナダ・トロントで
開催されました.非常に涼しく快適な気候でした.今回はメイン会議にて論文が
採択されたのでポスター発表をしてきました.私は自然言語処理に関する国際会
議に初参加したのですが,かなり盛り上がっていました.
ACLにはおよそ4800件ほどの投稿があり,採択率はメイン会議で20%ほど,
findings(メインでは採択できないけど惜しかった論文)で19%ほどでした.採択
論文の著者の国籍は圧倒的に中国とアメリカ2強で,中国で4000弱,アメリカで
2500程度であり,3位のイギリスでも250人程というデータでした.採択論文にお
ける中国の影響力の大きさがわかる一方で,査読者数はアメリカの方が多く,ア
ンバランス差を感じました.
ACL 2023において最も人を集めたイベントは,Geoffrey Hintonのキーノート
Two Paths to Intelligenceではないかと思います.これまでの研究の歴史に加
えて,デジタルな知能とバイオロジカルな知能の違いについての講演でした.歴
史に関しては,かなり皮肉が入った表現もあり,例えば,”I was given some
helpful advice. Neural networks don’t work: They cannot learn anything
complicated.”など,やはり多くの批判があったんだなという印象です.また,
世界初のニューラルネットの言語モデルは1985年という話もありました
(I thinkの注釈付き).
研究のトラックとしては,対話,情報抽出,大規模言語モデル,自然言語処理の
ための機械学習,自然言語処理応用の人気が高いとの報告でした.ACLの発表は
ほとんどがポスター発表のみで,自分の発表時以外は自由に興味のある発表のみ
を聞きに行くことができてよかったです.そろそろデータベースの会議もオーラ
ル発表中心をポスター発表中心に移行しても良いのではないかなと感じました.
私はHolistic Prediction on a Time-Evolving Attributed Graphという論文が
採択されました.時系列的に変化するグラフの将来を予測するという問題をグラ
フ深層学習を用いて解いたという論文です.既存の論文と異なる点は,新たな節
点の登場も含む全ての要素を予測するという点で,そのためにそれぞれの予測要
素(リンク予測や属性予測)間の相関関係をいかに捉えるのか,新たな属性付き
節点をいかに予測するのかというのが技術的な貢献点になります.興味がありま
したら是非論文をお読みいただければと思います.
著者紹介:
佐々木 勇和(大阪大学)
大阪大学大学院情報科学研究科の助教.グラフデータ分析と管理,モバイル・時
空間データ分析と管理,情報処理技術の異分野適用に関する研究に従事していま
す.
========================================================================
--
---
Takeshi Yamamuro