インフォマティクス、BERT日本語版事前学習モデルを公開

2022/04/06  株式会社 インフォマティクス 

株式会社インフォマティクス(本社:川崎市幸区、代表取締役:齊藤大地)は、このたび、ディープラーニングを用いた言語モデルであるRoBERTa(A Robustly Optimized BERT Pretraining Approach)の日本語版事前学習モデルを公開しました。


◆背景
インフォマティクスはこれまで、画像処理・自然言語処理・時系列解析等、さまざまなAI・機械学習技術を用いたソリューションをお客様に提供してまいりました。
このたび、弊社が持つ技術力をより広く認知していただくこと、および社会貢献の一環として、所有するAI・機械学習技術の中から、自然言語処理に関する技術の一部を公開する運びとなりました。

《自然言語処理について》
自然言語処理とは、私たちが日々読み・書き・話している言葉を処理するための技術です。
この技術は、以下をはじめさまざまな用途に使われています。
具体例:
・スパムメール判定
・SNSへの不適切な投稿の監視
・口コミの分析
・他言語への翻訳
・自動要約

◆インフォマティクスの自然言語処理技術の特徴
現在、AIを用いた自然言語モデルでは、 以下の2段階のプロセスで学習させるのが一般的です。
1.対象となる言語を理解(単語の意味・文法・共起表現の習得など)させる
2.上記具体例に挙げたような個々の問題を学習させる

対象言語を理解させるには大量のデータと長時間の学習が必要となりますが、一方、個々の問題の学習は必要なデータ量も少なく、学習も比較的短時間で済みます。

今回インフォマティクスが公開した自然言語モデルは、2019年にFacebook AI Research(現在のMeta AI Research)が公開した「RoBERTa」と呼ばれるモデルであり、言語理解の部分に対応するものです。
特定の問題に特化しておらず汎用性が高いため、公開したモデルを活用することで、さまざまな自然言語処理システムを効率的に実現できます。

公開したモデルは、HuggingFace社(米国)から提供されているモデルを用いています。無償のオープンソースソフトウェア(OSS)のため、技術者にとっても少ない学習時間とコストでの導入が可能です。

◆今後の展望
今後はさらに発展的なモデルの公開も行っていく予定です。AI・機械学習分野におけるインフォマティクスのこれからの活動にご期待ください。

◆公開サイト
モデル・学習データ等の詳細は以下のサイトをご覧ください。
https://github.com/informatix-inc/bert
※ライセンスはApache 2.0で商用・非商用を問わずご利用いただけますので、ぜひご活用ください。

インフォマティクスについて
株式会社インフォマティクスは、1981年の設立以来、建築・設計向けのCAD/CGシステム、AR/MRを活用した建設DXソリューションとシステム開発提案、ならびにGIS(地理情報システム)の開発、販売、保守サポートを行うシステムインテグレータとして成長を続けており、本社(川崎市)、営業所(大阪、名古屋)の総勢約220名の社員から成る企業です。中央官庁、地方自治体、鉄道、道路、電力、建設、土木、エンジニアリング分野に多数の導入実績があります。
*インフォマティクスは創立40周年を迎えました。
https://prtimes.jp/main/html/rd/p/000000058.000034332.html

AI・機械学習技術に関するお問い合わせ
株式会社インフォマティクス 技術部 関、大橋
E-mail:info@informatix.co.jp TEL:044-520-0850
Webフォームからのお問い合わせ https://www.informatix.co.jp/contact-us/

本ニュースリリースに関するお問い合わせ
株式会社インフォマティクス 広報
E-mail:ifx-marketing@informatix.co.jp

関連業界