NLPの評価型タスクに興味ある皆様:
(複数のMLにお送りしております.重複して受け取られた際にはどうかご容赦ください)
[Apologize for multiple copies]
=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
学生・若手研究者のためのBERTワークショップ2(固有表現抽出タスク2回目)のご案内
~BERTを使って固有表現抽出を体験!~
=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
1回目のワークショップでは、BERTを使った固有表現抽出システムをとりあえず動かせるまで行いました。多くの参加者と、活発なslackでの質疑、リーダーボードへの提出など大変ありがとうございました。その後、多くの方が各自でプログラムを動かし、体験してていただけたものと思います。2回目のワークショップでは、固有表現抽出と同等のタスクである属性値抽出システムについて紹介、説明させていただき、システムの改善のアイデアをお話したいと思います。また、皆様の体験を元にした議論の時間も設けます。最後に、関連したプロジェクトである「森羅プロジェクト」について少しまとまった説明をさせていただきます。
1回目に参加したか、ビデオを見て、プログラムを動かして頂いていることが、今回の参加の前提となります。(ビデオやその他の詳細はホームページをご覧ください。 http://shinra-project.info/shinra2022/bert_workshop2_shinra2022/ )
また、今後ワークショップを通して集まったコミュニティの活性化を図るため定期的に交流会を開きたいと考えており、その第1回交流会を今回のワークショップと合同で開催いたします。前回のワークショップの内容であるテキスト分類と今回の属性抽出にそれぞれ関連した2件の発表を予定しています。こちらもぜひ活発な議論をお願いいたします。
自然言語処理技術に対する期待と需要が高まる中、質の高い研究開発を行える人材の育成が望まれています。2018年にBERTが登場して以降、XLNet、ALBERT、RoBERTaといったBERTをベースとしたモデルが次々と登場しており、今後の自然言語処理において必須といえる状況となっています。こうした状況を踏まえ、「学生・若手研究者のためのBERTワークショップ」を8月4日(木)と8月10日(水)に開催しました。前回はテキスト分類タスクを対象としましたが、今回は参加者からの要望が多かった固有表現抽出タスクを対象に行います。
前回と同じく、ご自身のPCでGoogle Colaboratoryを利用してBERTを体験していただくことを想定しています。前回のワークショップに参加している必要はありませんが、前回の内容を踏まえた上での説明になりますので、前回の動画やスライド(http://shinra-project.info/shinra2022/bert_workshop2_shinra2022/で公開しています)をご覧いただいた上での参加が望ましいです。
学生や若手研究者をメインターゲットとしていますが、それ以外の方も歓迎しています。現在、ご自身で自由な時間に行う体験期間中でSlackなどを通して随時サポートを行っています。
<<< 特に学生の皆さんへ >>>
本ワークショップでは、運営が教材としてお渡しするコードで実際にBERTを動かし、そのコードを元に色々と独自の工夫をすることで改善していくという(単に講義を聞くという座学的なものから一歩踏み出した)研究や開発の基本的な部分も体験してもらいたいと考えています。そのために、皆さんが行った工夫がどのくらい改善につながったかがすぐにわかるようリーダーボードを用意しています。リーダーボードに結果を投稿すると、皆さんが頑張った結果がスコアという形で即座に反映されます。リーダーボードで優秀な結果を出した方やユニークなアプローチで取り組んだ方は、理研AIPの学生アルバイトとしてプロジェクトに参加していただくチャンスもあります。我こそは!と思う学生の皆さん、この機会にどんどんチャレンジしてください。
本ワークショップを通して、最新の自然言語処理技術に対する理解を深めてもらいたいと考えています。また、学生や研究者間の意見交換の場としても活用して頂ければと思います。
<日時>
10月27日(木) 14:00-16:00
<参加方法>
形式:オンライン(Zoom)
※当日はミーティングを録画し、後日Web公開する予定です。
<参加申し込み>
https://c5dc59ed978213830355fc8978.doorkeeper.jp/events/145315
※1日目:9月30日(金)に申し込まれた方も再度申し込みをお願いいたします。
<プログラム>
2日目:10月27日(木) 14:00-16:00
14:00-14:05 オープニング
14:05-14:35 属性値抽出
14:35-15:35 体験報告&第1回交流会
15:35-16:00 森羅プロジェクト紹介&クロージング
<体験教材>
今回の体験教材として、拡張固有表現を元に作成した8種類のカテゴリーが付与された「Wikipediaを用いた日本語の固有表現抽出データセット」(ストックマーク株式会社)を用います。拡張固有表現は、Wikipedia構造化プロジェクトである森羅プロジェクトでも用いられています。
<ホームページ>
http://shinra-project.info/shinra2022/bert_workshop2_shinra2022/
森羅2022実行委員会
理研AIP 言語情報アクセス技術チーム