リコー、「Gemma 3 27B」ベースにオンプレミス導入に最適な日本語LLMを開発(リコー)

2025/12/08　リコージャパン　株式会社　

ニュースリリースリコー、「Gemma 3 27B」ベースにオンプレミス導入に最適な日本語LLMを開発エフサステクノロジーズの「Private AI Platform on PRIMERGY」に搭載して提供開始

2025年12月8日

株式会社リコー

株式会社リコー（社長執行役員：大山晃）は、自社で開発・提供する日本語大規模言語モデル^*1 （以下、LLM）シリーズの次世代モデルとして、Googleが提供するオープンモデル「Gemma 3 27B^*2 」をベースに、オンプレミス環境への導入に最適な高性能LLMを開発しました。

本LLMは、リコー独自のモデルマージ^*3 技術を活用し、ベースモデルから大幅な性能向上を実現しています。具体的には、独自開発を含む約1万5千件のインストラクションチューニングデータで追加学習したInstructモデルから抽出したChat Vector^*4 など複数のChat Vectorを開発し、「Gemma 3 27B」に対して独自技術でマージしています。

同規模パラメータ数のLLMとのベンチマーク評価の結果、米OpenAIのオープンウェイトモデル「gpt-oss-20b^*5 」をはじめとする最先端の高性能モデルと同等の性能を確認しました。さらに、本モデルは、ユーザー体験を重視した非推論モデル^*6 ならではの高い初期応答性^*7 を実現しながら、高い執筆能力も兼ね備えており、ビジネス用途での活用に適しています。

また、モデルサイズは270億パラメータとコンパクトでありながら高性能を実現しており、PCサーバ^*8 等で構築でき、低コストでのプライベートLLM導入を可能にします。LLMは高い電力消費による環境負荷が課題となっていますが、コンパクトで高性能な本LLMは省エネルギー・環境負荷低減にも寄与します。

本LLMは、お客様のご要望に応じて個別提供が可能です。さらに、2025年12月下旬からは、エフサステクノロジーズ株式会社が提供するオンプレミス環境向けの対話型生成AI 基盤「Private AI Platform on PRIMERGY（Very Small モデル）」に、本LLMの量子化モデルと生成AI開発プラットフォーム「Dify（ディフィ）」をプリインストールし、LLM動作環境を構築したうえで、リコージャパン株式会社から提供します。本LLMとDifyを活用することで、お客様は自社の業種・業務に合わせた生成AIアプリケーションなどをノーコードで作成できます。さらに、リコージャパンが提供する「Dify支援サービス」による伴走支援も可能なため、社内にAIの専門人材がいない場合でも安心して生成AIの業務活用を開始できます。

今後は、推論性能^*9 や業種特化モデルの開発を進めるとともに、リコーが強みとするマルチモーダル性能と合わせて、リコーのLLMラインアップをさらに強化してまいります。

リコーは、お客様に寄り添い、業種業務に合わせて利用できる AI サービスの提供により、お客様が取り組むオフィス／現場のデジタルトランスフォーメーション（DX）を支援してまいります。

評価結果

複雑な指示やタスクを含む代表的な日本語ベンチマーク「ELYZA-tasks-100」、日本語のマルチターンの対話能力を評価する「Japanese MT-Bench」により、性能を評価しました。その結果、リコーが開発したLLMは、日本語ベンチマークにおいて米OpenAIが開発したオープンウェイトモデル「gpt-oss-20b」をはじめとする最先端の高性能なモデルと同等レベルの高いスコアを示しました。

ベンチマークツールにおける他モデルとの比較結果
（今回開発したモデルが下から2段目、その量子化モデルが最下段）

企業/組織	モデル名	推論モデル/非推論モデル	Japanese MT-Bench	Elyza-tasks-100	平均スコア
Google	gemma-3-27b-it	非推論	8.90	8.63	8.76
Alibaba Cloud	Qwen3-32B (/no_think)	非推論	8.92	8.95	8.93
Alibaba Cloud	Qwen3-32B (/think)	推論	9.26	8.98	9.12
Open AI	gpt-oss-20b	推論	9.48	8.92	9.20
Ricoh	gemma-3-Ricoh-27b-20251030	非推論	9.26	9.03	9.15
Ricoh	gemma-3-Ricoh-27b-20251030-gptq	非推論	9.01	9.05	9.03

各ベンチマーク・データセットの概要は次の通りです。

Japanese MT-Bench ：マルチターン対話設定のデータセット。タスクはコーディング、抽出、人文、数学、推論、ロールプレイ、STEM、ライティングから成る。スコアの範囲は1（最低）から10（最高）。
Elyza-tasks-100 ：複雑な指示・タスクを含むデータセット。要約の修正、意図の汲み取り、複雑な計算、対話生成など広範なタスクから成る。スコアの範囲は1（最低）から5（最高）。ここではJapanese MT-Benchとの平均スコアを算出するため、スコアを2倍にして比較。

*1

Large Language Model（大規模言語モデル）：人間が話したり書いたりする言葉（自然言語）に存在する曖昧性やゆらぎを、文章の中で離れた単語間の関係までを把握し「文脈」を考慮した処理を可能にしているのが特徴。「自然文の質問への回答」や「文書の要約」といった処理を人間並みの精度で実行でき、学習も容易にできる技術。
*2

https://ai.google.dev/gemma/docs/core?hl=ja
*3

モデルマージ：複数の学習済みのLLMモデルを組み合わせて、より性能の高いモデルを作る新たな方法のこと。GPUのような大規模な計算リソースが不要で、より手軽にモデル開発ができるとして、近年注目されています。
*4

Chat Vector：指示追従能力を持つモデルからベースモデルのウェイトを差し引き、指示追従能力のみを抽出したベクトル。
*5

https://openai.com/ja-JP/index/introducing-gpt-oss/
*6

非推論モデル：学習済み知識から直接回答を生成する思考プロセスを持つモデル。推論のステップを省略するため、明確な指示を与えれば、迅速に回答生成が可能。
*7

初期応答性Time to First Token：TTFT：ユーザーがAIにプロンプト（質問や指示）を入力してから、モデルが最初の出力テキスト（トークン）を生成し始めるまでにかかる時間を測定する応答速度の指標。ユーザー体験（UX）に直接影響する指標。
*8

PCサーバ：一般的なパソコン製品と共通の技術や仕様、部品などを用いて設計、製造されたサーバコンピュータ。サーバに比べて、一般的には安価に導入が可能。
*9

推論性能：LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。

リコーのAI開発について

リコーは、1980年代にAI開発を開始し、2015年からは画像認識技術を活かした深層学習AIの開発を進め、外観検査や振動モニタリングなど、製造分野への適用を行ってきました。2021年からは自然言語処理技術を活用し、オフィス内の文書やコールセンターに寄せられた顧客の声（VOC）などを分析することで、業務効率化や顧客対応を支援する「仕事のAI」の提供を開始しました。

2022年からは大規模言語モデル（LLM）の研究・開発にもいち早く着手し、2023年3月にはリコー独自のLLMを発表。その後も、700億パラメータという大規模ながら、オンプレミス環境でも導入可能な日英中3言語対応のLLMを開発するなど、お客様のニーズに応じて提供可能なさまざまなAIの基盤開発を行っています。リコーはLLM開発において、独自のモデルマージ技術（特許出願中）をはじめとした、多様で効率的な手法・技術を活用することで、お客様の用途や環境に最適な企業独自のプライベートLLMを低コスト・短納期で提供しています。

画像認識や自然言語処理に加え、音声認識AIの研究開発も推進し、音声対話機能を備えたAIエージェントの提供も開始しています。