独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM(大規模視覚言語モデル)を一般公開 ―商用利用可能な画像チャットモデルを提供―

2024/06/13  株式会社 サイバーエージェント 

独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM(大規模視覚言語モデル)を一般公開 ―商用利用可能な画像チャットモデルを提供―

広告 |2024年6月13日

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、75億パラメータの日本語VLM(Vision Language Model、大規模視覚言語モデル)を公開したことをお知らせいたします。

近年、OpenAI社が開発した「GPT-4o」※1 を始めとした画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。
当社においてもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでおります。
一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況です。

■75億パラメータの日本語VLM(視覚言語モデル)の公開

こうした背景のもと、当社は日本語VLMの開発に取り組んでおり、このたびベースモデルの一部をHugging Face Hubにて公開いたしました。公開されたモデルは社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンス※2で提供されます。

■モデルURL
https://huggingface.co/cyberagent/llava-calm2-siglip

本モデルをベースとしてチューニングを行うことにより、画像を加味した対話AIなどの開発も可能となります。これにより、より多くの方々が日本語の視覚言語モデルに関する最先端の研究開発に取り組んでいただけます。

また公開したモデルに加え、研究用に開発しているさらに高性能なモデルを一部お試しいただけるように、デモも公開しておりますので併せてお試しください。(※研究用途のみとなります。)
デモURL:https://huggingface.co/spaces/cyberagent/llava-calm2-preview

当社は今後もVLMの開発とビジネス活用を進めるとともに、モデルの公開や産学連携などの取り組みを通じて国内における視覚言語モデルの発展に貢献してまいります。

※1 GPT-4o
OpenAI社が開発・公開する大規模言語モデルを用いていて、かつ画像/音声/動画を扱うことのできる高度な対話型AIです。言語/画像/動画/音声の理解・生成・質問応答・翻訳などに対応しており、様々な分野で注目を集めています。

※2 Apache-2.0
ライセンスについてはモデル公開ページに詳細の記載がありますのでご覧ください。なお個別の事例にはお答えできない場合がございますので予めご了承ください。



Tweet

他の画像

関連業界