国内初のオープンソースとして公開予定の日本語特化のガードレールモデルを開発しました
はじめに ARISE analytics の澁谷紘人と奥井恒です。 我々は今回、国内初のオープンソースとして公開予定の、危険なユーザー入力を検出する日本語に特化したガードレールモデルを開発しました。その内容をお伝えさせていただきます。 具体的には、Google によるガードレールモデルであるShieldGemma [Ref. 1] を日本語で再現することを目的とし、llm-jp のAnswerCarefully dataset [Ref. 2] を用いて学習・評価を行いました。その結果、上記データセットにおいて、ShieldGemma やGPT-4o...