国際会議「ACL 2024」で論文が採択~画像キャプショニングモデルの学習に必要な計算コストを大幅に削減する新手法を開発~

2024/08/05  ソフトバンク 株式会社 

国際会議「ACL 2024」で論文が採択

~画像キャプショニングモデルの学習に必要な計算コストを大幅に削減する新手法を開発~

2024年8月5日
ソフトバンク株式会社

ソフトバンク株式会社(以下「ソフトバンク」)は、自然言語処理分野における世界最高峰の国際会議の一つである「Annual Meeting of the Association for Computational Linguistics(ACL 2024)」において、ソフトバンクのAI戦略室に所属する髙田拓実(たかだ・たくみ)の主著論文(以下「本論文」)が採択されましたのでお知らせします。本論文は、2024年8月11~16日に開催されるACL 2024で、研究成果として発表するものです。

深層学習による自然言語処理の高度化により、画像の内容を文章で説明する技術が大きな注目を集めています。一般的に生成される文章の文体や内容の学習による最適化のために強化学習が用いられますが、Self-Critical Sequential Training(SCST)などの従来の手法は計算コストが非常に高く、特に大規模な視覚言語モデル(VLM)には適用が難しいという問題がありました。評価指標の最適化を目指すため、強化学習で行われるキャプションの生成と報酬のフィードバックという探索を行う代わりに、報酬によって重要度を重み付けした多様な拡張データを訓練データに用いて自己教師あり学習(Self-Supervised Learning)を行い、学習に必要な計算コストを大幅に削減し、効率的かつ安定的に説明文の品質を高めるダイレクトメトリック最適化(DMO:Direct Metric Optimization)という新しい手法を提案しました。DMOは、大規模な視覚言語モデルの最適化などの計算コストが増加する課題について、モデルを最適化する際の有望な選択肢になると考えられます。

本論文の研究は、今後テキストと画像や映像を組み合わせるマルチモーダルラーニングなど、視覚言語モデルを活用する事例への利用が期待されます。

ACL 2024で採択された本論文の詳細は、下記の通りです。

論文情報

タイトル:Direct Metric Optimization for Image Captioning through Reward-Weighted Augmented Data Utilization
(和訳)報酬重み付きデータ拡張による画像キャプションのダイレクトメトリック最適化?

著者:Takumi Takada, Yuma Suzuki, Hiroki Takushima, Hayato Tanoue, Haruki Sato, Aiswariya Manoj Kumar, Hiroki Nishihara, Takayuki Hori, Kazuya Ueki

論文概要

本論文では、画像のキャプショニング技術で高い計算コストを伴う従来の強化学習に代わる、ダイレクトメトリック最適化(DMO)手法を提案しています。DMOは、報酬で重み付けをした多様な拡張データを活用することで、高い計算効率で安定的に文章の品質最適化を実現します。検証結果により、DMOは、計算コストを大幅に削減しながらも、従来の最先端手法と同程度の性能の達成を確認できました。

<イメージ:従来の強化学習とDMO(提案手法)の違い>

出力結果の例

<数回エポック学習後の画像キャプションの生成結果>
正答例とDMO(提案手法)、SCST(従来手法)での生成例(下線は画像に特有な表現)

ACLについて

Annual Meeting of the Association for Computational Linguistics(ACL)は、自然言語処理分野の最高峰の会議として知られています。1960年に立ち上げられ、ACL 2024は62回目の開催となります。

  • SoftBankおよびソフトバンクの名称、ロゴは、日本国およびその他の国におけるソフトバンクグループ株式会社の登録商標または商標です。
  • その他、このプレスリリースに記載されている会社名および製品・サービス名は、各社の登録商標または商標です。

関連業界

情報・通信業界のニュース