独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM（大規模視覚言語モデル）を一般公開 ―商用利用可能な画像チャットモデルを提供―

2024/06/13　株式会社　サイバーエージェント　

独自の日本語LLM「CyberAgentLM2」に視覚を付与したVLM（大規模視覚言語モデル）を一般公開 ―商用利用可能な画像チャットモデルを提供―
広告｜2024年6月13日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、75億パラメータの日本語VLM（Vision Language Model、大規模視覚言語モデル）を公開したことをお知らせいたします。

近年、OpenAI社が開発した「GPT-4o」※1 を始めとした画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。
当社においてもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでおります。
一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況です。

■75億パラメータの日本語VLM（視覚言語モデル）の公開

こうした背景のもと、当社は日本語VLMの開発に取り組んでおり、このたびベースモデルの一部をHugging Face Hubにて公開いたしました。公開されたモデルは社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンス※2で提供されます。

■モデルURL
https://huggingface.co/cyberagent/llava-calm2-siglip

本モデルをベースとしてチューニングを行うことにより、画像を加味した対話AIなどの開発も可能となります。これにより、より多くの方々が日本語の視覚言語モデルに関する最先端の研究開発に取り組んでいただけます。

また公開したモデルに加え、研究用に開発しているさらに高性能なモデルを一部お試しいただけるように、デモも公開しておりますので併せてお試しください。（※研究用途のみとなります。）
デモURL：https://huggingface.co/spaces/cyberagent/llava-calm2-preview

当社は今後もVLMの開発とビジネス活用を進めるとともに、モデルの公開や産学連携などの取り組みを通じて国内における視覚言語モデルの発展に貢献してまいります。

※1 GPT-4o
OpenAI社が開発・公開する大規模言語モデルを用いていて、かつ画像/音声/動画を扱うことのできる高度な対話型AIです。言語/画像/動画/音声の理解・生成・質問応答・翻訳などに対応しており、様々な分野で注目を集めています。

※2 Apache-2.0
ライセンスについてはモデル公開ページに詳細の記載がありますのでご覧ください。なお個別の事例にはお答えできない場合がございますので予めご了承ください。

Tweet

他の画像

関連業界

情報・通信

情報・通信業界のニュース

経済産業省「令和6年度医療機関におけるPHR利活用推進等に向けた実証調査事業」に採択 2024/06/21　シミックホールディングス　株式会社

新たに企業に導入してほしい福利厚生制度1位は「休暇制度」　全体の4割以上が休暇制度が整備されていない企業には「就職を希望しない」と回答 2024/06/21　株式会社　ユニークピース

電動マイニングワイドボディダンプトラックの世界市場規模、売上、価格、収益、動向分析レポート2024-2030 YH Research 2024/06/21　ＹＨＲｅｓｅａｒｃｈ　株式会社

デジタル2次元ワークベンチ世界市場の展望と動向分析レポート：規模、シェア、成長機会、予測2024-2030 2024/06/21　ＱＹＲｅｓｅａｒｃｈ　株式会社

この企業の最新情報を 逃さずキャッチ！: 無料会員登録ニュースの集め方を見る

株式会社　サイバーエージェント（東京都）

この企業をチェック この企業をチェック

この企業をチェックするとは？

情報の掲載依頼はこちら