LLMへの危険な入力を検出する日本語に特化したガードレールモデルを開発し、国内初のオープンソース化しました
はじめに ARISE analytics の澁谷紘人と奥井恒です。 我々は今回、危険なユーザー入力を検出する日本語に特化したガードレールモデルを開発し、日本語初のオープンソースモデルとして公開いたしました。その内容をお伝えさせていただきます。 具体的には、Google によるガードレールモデルであるShieldGemma [Ref. 1] を日本語で再現することを目的とし、llm-jp のAnswerCarefully dataset [Ref. 2] を用いて学習・評価を行いました。その結果、上記データセットにおいて、ShieldGemma やGPT-4o...