NEWS
NEWS
ARISE analyticsは、大規模言語モデル(LLM)の安全性を確保するための日本語に特化したガードレールモデルを、日本語では初となるオープンソースモデルとして開発しました。
ガードレールモデルとは、AIシステムにおいて不適切な入出力を監視・フィルタリングする専用のモデルです。メインのLLMとは別に動作し、危険なコンテンツや偏見、差別的な内容、機密情報などが出力されないよう、AIシステムの安全性を担保する重要な役割を果たします。
日本語特有の文化・社会的文脈や法規制に対応できるガードレールモデルは、これまでオープンソースでは存在していませんでした。ARISE analyticsは、Googleが開発したShieldGemmaを日本語で再現することを目指し、llm-jpのAnswerCarefully datasetを用いて学習・評価を実施しました。
その結果、日本語の危険性判別において、ShieldGemmaやGPT-4oを超える精度を達成し、特に以下の4つのカテゴリで高い判別精度を実現しています。
開発したガードレールモデルは下記のリンクで公開しています。
モデル本体: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora
LoRA アダプタのみ: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora-adapter
詳細な技術情報については、ARISE analytics TECH BLOGの記事をご覧ください。