ARISE analytics、安全なLLM活用を目指した日本語特化のガードレールモデルを開発し、初のオープンソース化

x facebook hatena

ARISE analyticsは、大規模言語モデル(LLM)の安全性を確保するための日本語に特化したガードレールモデルを、日本語では初となるオープンソースモデルとして開発しました。

ガードレールモデルとは、AIシステムにおいて不適切な入出力を監視・フィルタリングする専用のモデルです。メインのLLMとは別に動作し、危険なコンテンツや偏見、差別的な内容、機密情報などが出力されないよう、AIシステムの安全性を担保する重要な役割を果たします。

日本語特有の文化・社会的文脈や法規制に対応できるガードレールモデルは、これまでオープンソースでは存在していませんでした。ARISE analyticsは、Googleが開発したShieldGemmaを日本語で再現することを目指し、llm-jpのAnswerCarefully datasetを用いて学習・評価を実施しました。

その結果、日本語の危険性判別において、ShieldGemmaやGPT-4oを超える精度を達成し、特に以下の4つのカテゴリで高い判別精度を実現しています。

  • 性的に露骨な情報
  • ヘイトスピーチ
  • 危険なコンテンツ
  • ハラスメント

開発したガードレールモデルは下記のリンクで公開しています。

モデル本体: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora 
LoRA アダプタのみ: https://huggingface.co/shibu-phys/arise-japanese-guardrail-gemma2b-lora-adapter 

詳細な技術情報については、ARISE analytics TECH BLOGの記事をご覧ください。

 

ニュースに関するご質問・お問い合わせは
こちらよりお送りください

PAGE TOP