【JSAI2024】「ブラックボックス大規模言語モデルのHallucination検出手法の提案」についてポスター発表しました

はじめに

こんにちは、ARISE analyticsの小山と山里です。
弊社では、自己研鑽の一環として一部有志が研究活動を行っており、今年は人工知能学会 全国大会(JSAI2024)でポスター発表を行いました。本記事では私たちが行った研究内容を紹介します。

研究背景

私たちは「ブラックボックス大規模言語モデルのHallucination検出手法の提案」というテーマで研究を行いました。
近年、Chat-GPTをはじめとする大規模言語モデル(以下、LLM)が脚光を浴びており、今後も私たちの生活において重要な役割を担う場面が増えてくると予想されます。
一方で、LLMには「AIが嘘をつく」とよばれるHallucinationという事象が存在します。LLMが活発に利用される今後において、Hallucinationを検出するということは重要な課題であると考えられます。

Hallucination検出手法として、LLMのトークン出現確率値を参照し行うものなどが存在しますが、これらはLLMの内部情報にアクセス可能な状況でのみ利用可能であり、API経由でプロンプトに対する出力のみが得られる状況などにおいては、活用が困難であるといえます。
また、データベースを参照することでHallucinationを緩和する手法(RAGなど)も存在しますが、これはデータベースなどの管理コストがかかる点や、データベースに含まれていない情報に対するHallucinationの緩和が効果的に行えないという課題が存在します。
そこで私たちはLLMの出力のみを用いてHallucination検出を行う手法を検討しました。

SelfCheckGPT

LLMの出力のみを用いてHallucination検出を手法として「SelfCheckGPT」という手法が提案されています。
これはLLMがある事象を十分に学習できている場合、同じプロンプトを入力した際に出力が類似するという仮説に基づいた手法です。SelfCheckGPTでは同じプロンプトを複数回入力し、生成された複数の出力の文章類似度をもとにHallucination検出を行います。(出力の文章類似度が低いほど、Hallucinationが含まれる可能性が高い。)

本研究では英語の限られたデータセットについてのみ検証が行われていたため、私たちは日本語や他データセットでも同様の効果が得られるかを検証しました。また、文章類似度を算出する際に複数の手法を利用し、精度比較を行いました。

実験と結果

私たちの研究では、日本語のクイズ問題データセットであるJAQKETを利用しました。
本データセットの問題文をプロンプトとしてGPT3.5-turboに入力し、出力にHallucinationが含まれた際に検出が行えるか、という検証を行いました。また、出力は回答部と解説部の2つに分けて出力させ、それぞれについてHallucination検出が行えるかを確認しました。

結果として、回答部のおけるHallucination検出に関しては一定の効果を示せたものの、解答部では効果を示すことができませんでした。
これは、出力の文章構造がそれぞれで酷似しすぎてしまい、Hallucinationの有無にかかわらず文章類似度が高くなり、Hallucinationを含まないと判定されてしまったと考えております。実際にHallucination検出が行えなかった例を以下に示します。

今回の実験では文章類似度を算出するためにBERTとよばれる自然言語モデルを用いましたが、GPT-4oなどのより性能が高いモデルを用いることで、これらの課題は改善できると考えられます。

おわりに

以上、私たちが取り組んだ研究内容の紹介でございました。
LLMをはじめとする生成AIが脚光を浴びているということもあり、今回のポスター発表ではたくさんの方々と議論を行うことができ、とてもいい機会となりました。
次年度の人工知能学会に向けて、引き続き本研究の深掘りを進めてまいります。