対話AI の Capex、言語処理学会第28回年次大会(NLP2022)での研究発表、及び Capex雑談対話コーパスを公開

2022/03/18  株式会社 Capex 

日本語自然言語処理技術への貢献に向けて

株式会社Capex は、言語処理学会第28回年次大会において研究発表を行います。また、日本語の自然言語処理研究の発展に貢献するため、当社が運営する雑談対話 AI アプリの対話ログに基づく約 15,000 対話のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開することをお知らせします。


株式会社Capex(本社:東京都港区、代表取締役:小亀俊太郎、以下「当社」)は、2022 年 3 月 14 日から18 日にかけてオンラインで行われる言語処理学会第28回年次大会(NLP2022)において、研究発表*を行います。また、日本語の自然言語処理研究の発展に貢献するため、当社が運営する雑談対話 AI アプリの対話ログに基づく約 15,000 対話のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開することをお知らせします。
*当社の論文は、言語処理学会第28回年次大会(NLP2022)において、3 月 16 日にオンラインにて発表を行います。

日本語の自然言語処理における課題
自然言語処理は、対話システムや機械翻訳、検索エンジンなど、生活におけるさまざまな場面で利用されています。日本語の自然言語処理は、主要な他言語と比べ公開されているデータセットの数が少なく、学術研究用に利用可能なデータセットを充実させることが望まれています。


公開する学術研究用データセットについて
今回、当社が公開するデータセットは、当社が提供する雑談対話 AI アプリ上で収集した対話データと、それを基に加工・作成した文章にラベル付け(アノテーション)を行ったものです。実際に雑談対話 AI アプリをご利用いただいたお客様による対話データであるため、特定のシチュエーションに限らない様々な発話が基となっており、幅広い日本語自然言語処理にご活用いただけます。以下のデータセットを公開します。

・Capex雑談対話コーパス
雑談対話アプリ内の対話ログからシステムとユーザーの 5 ターンからなる対話を 1 セットとして抽出し、さらにシステムの最終発話が対話破綻しているかどうかをアノテーションしています。(約 15,000 対話)
本データセットの申込みは当社お問合せフォームよりご連絡ください。
お問合せフォーム:https://capex.ai/contact
なお、本データセットは学術研究用途での利用を意図したもので、非営利目的でのみ利用可能なライセンス付与を行います。

当社は、引き続き日本語自然言語処理技術の発展に貢献してまいります。本学術研究用データセットにつきまして何かお気づきの点がございましたら、当社お問い合わせへご連絡ください。


参考
言語処理学会第28回年次大会(NLP2022):https://www.anlp.jp/nlp2022/

他の画像

関連業界