NEWS

ARISE analytics、安全なLLM活用を目指した日本語特化のガードレールモデルを開発し、初のオープンソース化

2025-07-18

この記事をシェアする

ARISE analyticsは、大規模言語モデル（LLM）の安全性を確保するための日本語に特化したガードレールモデルを、日本語では初となるオープンソースモデルとして開発しました。

ガードレールモデルとは、AIシステムにおいて不適切な入出力を監視・フィルタリングする専用のモデルです。メインのLLMとは別に動作し、危険なコンテンツや偏見、差別的な内容、機密情報などが出力されないよう、AIシステムの安全性を担保する重要な役割を果たします。

日本語特有の文化・社会的文脈や法規制に対応できるガードレールモデルは、これまでオープンソースでは存在していませんでした。ARISE analyticsは、Googleが開発したShieldGemmaを日本語で再現することを目指し、llm-jpのAnswerCarefully datasetを用いて学習・評価を実施しました。

その結果、日本語の危険性判別において、ShieldGemmaやGPT-4oを超える精度を達成し、特に以下の4つのカテゴリで高い判別精度を実現しています。

性的に露骨な情報
ヘイトスピーチ
危険なコンテンツ
ハラスメント

開発したガードレールモデルは下記のリンクで公開しています。

モデル本体: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora
LoRA アダプタのみ: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora-adapter

詳細な技術情報については、ARISE analytics TECH BLOGの記事をご覧ください。

ニューストップへ

ARISE analytics、安全なLLM活用を目指した日本語特化のガードレールモデルを開発し、初のオープンソース化

関連記事