【JSAI2025】「反論・再考プロンプトによるHallucination検出手法の提案」についてポスター発表しました

x facebook hatena

 

はじめに

こんにちは、ARISE analyticsの小山と山里です。
弊社では、Technology DX WGというAIエンジニアを中心としたワーキンググループ(WG)があり、最先端技術を効率的に取り入れ競争力を維持・向上し続けることを目的に活動しています。その取り組みの1つとして、一部有志メンバーが研究活動を行っており、今年は人工知能学会 全国大会(JSAI2025)でポスター発表を行いました。本記事では私たちが行った研究内容を紹介します。

研究背景

[山里・小山]JSAI2025.pdf

私たちは「反論・再考プロンプトによるHallucination検出手法の提案」というテーマで研究を行いました。
大規模言語モデル(以下、LLM)の普及に伴い、生成AIの活用が急速に進んでおり、今後も私たちの生活において重要な役割を担う場面が増えてくると予想されます。一方で、LLMには「幻覚」とよばれるHallucination[1]という事象が存在します。LLMが活発に利用される今後において、Hallucinationへの対策は重要な課題であると考えられます。

LLMのHallucination対策として、一般的に以下の手法が知られています。

  1. 検索拡張生成(RAG: Retrieval Augmented Generation)[2][3]

    • 外部リソースから適切な情報を検索し、その結果をもとにLLMが出力を生成

    • メリット:LLMが学習できていないドメインについても適切な出力が可能(Hallucinationを抑制)

    • デメリット:外部リソースの整備・運用コストが高く、広範囲のドメインへの適用が困難

  2. SelfCheckGPT [4]

    • 同一のプロンプトに対して複数回LLMで出力を行い、出力間の類似度からハルシネーションを検知

    • メリット:LLMの出力のみを用いるため、外部リソースの整備・運用が不要

    • デメリット:複数回LLMで出力を行うことによる消費Token量の増加

これらの手法のメリット、デメリットを踏まえ、私たちは「外部リソースを用いず、かつ消費Token量を抑えながらHallucination検知を行う手法」の開発に取り組みました。

提案手法

私たちの提案手法は、LLMの思考および社会的行動に人間と類似した傾向がある[5][6][7]という研究成果に基づいています。人間は、ある質問に対して自信・確信のない回答を行った際に反論を受けると、自らの回答を修正する傾向があります。私たちは、この人間の対話の流れをプロンプトエンジニアリングによって再現し、以下の4ステップによるHallucination検知手法を提案しました。

  • ステップⅰ:回答生成の指示

    • LLM①にて、特定の質問に対する回答を生成

  • ステップⅱ-1:反論回答の生成

    • LLM②にて、ステップⅰと同一の質問と生成された回答を入力し、反論となる回答を生成

  • ステップⅱ-2:再考の指示

    • LLM①にて、ステップⅱ-2で生成された反論回答を入力し、ステップⅰで生成された回答について再考・再生成

  • ステップⅲ:Hallucinationの判定

    • LLM③にて、ステップⅰで生成された回答と、ステップⅱ-2で再生成された回答を比較

    • 回答に差異がある場合、ステップⅰで生成された回答はHallucinationと判定

 
 
手順イメージ
提案手法イメージ

実験と考察

本研究では、クイズを題材にした日本語QAデータセットであるJAQKET[8]を用いて、提案手法の検証実験を行いました。検証実験の流れは以下の通りです。

  1. JAQKETからランダムに抽出した500問のクイズ問題について、LLMで回答を出力

  2. 1.で出力された回答について、Hallucinationが含まれるかの観点で人間がアノテーションを実施

  3. 2.でアノテーションを行った回答について、提案手法及び比較手法(SelfCheckGPT)でHallucinationを検知できるかを検証

検証実験ではLLMとしてGPT-4o-miniを利用しました。

検証実験の結果は以下の通りとなりました。
表中のNは、SelfCheckGPTがHallucination検知のために活用するサンプリング数を表しています。

 

Method

 

Precision

 

Recall

 

F1-Score

 

Token量

 

提案手法

0.45

0.91

0.60

165,039

SelfCheckGPT(N=1) 0.67 0.41 0.51 56,619

SelfCheckGPT(N=3)

0.57

0.66

0.61

169,936

SelfCheckGPT(N=5)

0.55

0.78

0.65

283,197


提案手法についてF1-ScoreとToken量で比較すると、SelfCheckGPT(N=3)と同等の精度であることがわかりました。また、提案手法はSelfCheckGPT(N=3)と比較して、Recallが高く、Precisionが低い結果となりました。このような結果になった理由として、提案手法が「反論」の際に用いているプロンプトが断定的な表現になっていたため、LLMが強く影響を受け、回答が事実と一致しているものについてもHallucinationと誤検知しやすくなったと考えています。.この課題については,「反論」の際に用いているプロンプトを見直すなど,改善の余地[9]があると考えられます。また、LLMにはプロンプトに記載された内容に同調する傾向がある[10]ことが知られており、それらも要因の1つであると考えています。このことから、医療や金融など、偽陰性リスクの低減が求められる分野において、提案手法は有用であると考えています。

まとめ

以上、私たちが取り組んだ研究活動の紹介でございました。当日は多々ある発表の中から私たちの発表を聞いてくださり、ありがとうございました。気づかなかった観点からのコメントもあり、非常に良いディスカッションができました。また、発表後にも私たちの企業ブースに足を運んでいただき、詳細を聞いてくださる方々もいらっしゃり、とても感謝しています。
LLMの活用が進む中で、Hallucination対策はますます重要な課題となっていきます。本研究が、より安全で信頼性の高いLLM活用の一助となれば幸いです。
最後までお読みいただき、ありがとうございました。

参考文献

[1]Lei Huang, et al.: A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions, arXiv preprint arXiv:2311.05232, 2023
[2]Scott Barnett, et al.: Seven Failure Points When Engineering a Retrieval Augmented Generation System, CAIN 2024, IEEE/ACM, 2024
[3]Yunfan Gao, et al.: Retrieval-Augmented Generation for Large Language Models: A Survey, arXiv preprint arXiv:2312.10997, 2024
[4]Potsawee Manakul, et al.: SelfCheckGPT: ZeroResource Black-Box Hallucination Detection for Generative Large Language Models, EMNLP 2023, ACL, 2023
[5]Aniket Kumar Singh, et al.: The Confidence-Competence Gap in Large Language Models: A Cognitive Study, arXiv preprint arXiv:2309.16145, 2023
[6]Jintian Zhang, et al.: Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View, ACL 2024, ACL, 2024
[7]Zhiyuan Weng, et al.: DO AS WE DO, NOT AS YOU THINK: THE CONFORMITY OF LARGE LANGUAGE MODELS, ICLR 2025, ICLR, 2025
[8]鈴木正敏ら: JAQKET:クイズを題材にした日本語QAデータセットの構築, 言語処理学会第26回年次大会, 言語処理学会, 2020
[9]Jean Kaddour, et al.: Challenges and applications of large language models, arXiv preprint arXiv:2307.10169, 2023
[10]Lars Malmqvist: Sycophancy in Large Language Models: Causes and Mitigations, arXiv preprint arXiv:2411.15287, 2024

ご質問・お問い合わせは
こちらよりお送りください
採用
ARISE analyticsとは

PAGE TOP