対話エージェントの評価フレームワークとマルチターン会話の評価手法

x facebook hatena

ARISE analyticsの秋元です本記事では,チャットボットに代表される人間との会話に特化したAIシステムである対話エージェントの評価方法について紹介します. 特に,エージェントとユーザが複数回のやり取りを行うようなケースを想定したマルチターンの対話を対象にした性能評価に注目します.

対話エージェント

対話エージェントは,ユーザがテキストまたは音声でAI等のシステムと会話を行う場面において,AI側のシステムを指します. システム全体としては,Webアプリであったりデスクトップアプリケーションであったり様々ですが,近年ではバックエンド側でLLMのAPIを呼び出してユーザからの発話に対する応答を生成するような実装が主流だと思われます.

chatbot-image

本記事では,対話システムを3つの時期に分けて整理して扱います.それぞれの時期で対話システムを構築するアプローチが大きく変化します.

  • 2000年〜2015年頃: 統計的対話システム
    • 初期のルールベースによる対話システムから,マルコフ決定過程など統計的な手法や強化学習を用いた対話状態追跡によるアプローチへ ([2,3,4]など)
  • 2015年〜2020年頃: 深層学習による対話システム
    • seq2seqモデルの導入によりEnd2endで学習されたTransformerアーキテクチャの対話システムへ ([5,6,7,8,9,10]など)
  • 2020年〜: LLMベースの対話システム
    • 従来までのパラメータを学習するシステムからfew-shot学習・プロンプトベースのシステムへパラダイムシフト ([11,12,13,14]など)

以降では,それぞれの時期の対話エージェントの評価手法の変遷を外観し,その後マルチターン対話の評価方法に関してさらに深掘りしていきます.

対話エージェントの評価方法

research-trend対話エージェントの発展と評価観点の遷移

2000年〜2015年頃: 統計的アプローチベースの対話システム

対話システムの評価においては,1990年代後半までは主に主観的な印象の評価や個別タスクの達成率といった断片的な指標による評価にとどまっていましたが,この時期にWalker et al. (1997)[15]によって開発された PARADISE (PARAdigm for DIalogue System Evaluation) がこの時期の評価フレームワークの基礎になりました.

PARADISEでは,タスクの成功率と対話時間や発話数などの対話コストの観点からユーザ満足度を対話システムの評価指標として定義しています.

$$ \text{Peformance} = \alpha \cdot \mathcal{N}(\kappa) - \sum_i w_i \cdot \mathcal{N}(c_i) $$

•\(\alpha,w\): 重み
•\(\kappa\): タスクの達成度の尺度  
  •\(\kappa = \frac{P(A)-P(E)}{1-P(E)}\)  
  •\(P(A)\)はシステムから出力される情報がユーザの求める情報と一致する割合  
  •\(P(E)\)は両者が偶然に一致する割合  
  •\(P(A),P(E)\)はユーザが求める情報に関する属性の行列から計算される
•\(c\): 対話コストの指標
•\(\mathcal{N}\): Z-score 標準化

paradisePARADISEの評価方法

PARADISEにおける対話コストとしては以下のような尺度が想定されています.

  • 効率性の尺度[16,17,19]
    • タスク完了までのターン数
    • 経過時間
  • 対話品質の尺度[18,20,21]
    • 不適切な発話
    • 発話の修正回数

一方,PARADISEに関する限界として以下のような点が指摘されました. PARADISEは必ず正解があるタスク思考の対話を前提とした評価フレームワークであるため,雑談型・オープンドメインの対話や効率性以外の対話体験を評価できません. 

また,\(\kappa\)で測られるタスク達成率はユーザの主観による属性の行列を元に計算されるため,必ずしも客観的な評価にはならない可能性が指摘されました.

2015年〜2020年頃: 深層学習ベースの対話システム

この時期には深層学習ベースの対話システムが急速に発展し,Seq2Seqモデル[6],階層的Encoder-Decoderモデル[7],強化学習による対話システム[22]といった新しいアーキテクチャが数多く提案されました.

対話システムの発展に合わせて,評価フレームワークに関しても新しい課題が出現します.具体的には,あるコンテキストに対して正解が複数存在する場合の評価方法,複数ターンにわたる文脈の維持,トピックの自然な繊維,システム側のペルソナの一貫性などが挙げられます.

対話システムの性能が向上したことで,この時期からマルチターンの対話に関する評価が観点として取り上げられるようになりました.

この時期の評価フレームワークにおける重要な知見として,Liu et al. (2016)[23]があります.研究では,従来用いられてきた自動評価指標 (BLEU,METEOR,ROUGE,埋め込みベースの指標) と人手による評価を比較し,TwitterドメインやUbuntuドメインにおいて相関が非常に低いことが発見されました. これらの指標は本質的には単語同士の比較による評価指標であり,文脈や意味的な類似性を捉えることができないため,応答の適切さを直接測定したものではないことが改めて明らかになりました.

このような従来の評価フレームワークへの反省を踏まえて,新しい評価方法が提案されました.

ADEM (Automatic Dialogue Evaluation Model)[24]

 Lowe et al. (2017)では,従来型の評価指標の問題点と人手による評価のコストの問題をクリアするために,対話の評価フレームワーク自体を学習する方法を提案しました. モデルは改装型RNNエンコーダを用いて以下のように定義されます.

$$ \text{score}(c,r,\hat{r}) = (c^T M \hat{r} + r^T N \hat{r} - \alpha) / \beta $$
•\(c,r,\hat{r}\): それぞれ,対話のコンテキスト,参照応答,モデルの応答
•\(M,N\): パラメータ
•\(\alpha, \beta\): 定数

実験の結果,ADEMは人手による評価との相関が0.41〜0.44まで向上し,BLEUなど従来の評価指標よりも高い性能を示しました.

RUBER (Referenced and Unreferenced BLEU Evaluation Routine)[25]

Tao et al. (2018)はオープンドメインの対話システムにおける自動評価指標として参照ベースと非参照ベースのメトリクスを合成したRUBERを提案しました.

ruberRUBERの評価方法

参照ベースのメトリクスはモデルの応答と正解データの類似度を指標とし,非参照ベースのメトリクスはモデルの応答とクエリの関連性を指標とします. 2つのメトリクスを組み合わせることで,最終的な評価指標を算出します. RUBERはGhazarian et al. (2019)[26]によって人手によるアノテーションが不要な自動評価メトリクスであるBERT-RUBERへと拡張されました.

USR (Unsupervised and Reference-free Evalutation Metric)[27]

Mehri & Eskenazi (2020)は教師なしかつ非参照ベースのメトリクスであるUSRを提案しました. USRはRoBERTa[29]をベースとして,人手でアノテーションされたコーパスを評価用の学習データとして事前学習させることで汎用的な評価用モデルを構築しました. コーパスには,理解のしやすさ,会話の自然さ,文脈保持力,興味深さ,知識利用,全体的な品質の6つの観点についてアノテーションされており,評価用モデルは評価対象の対話システムを上記6つの観点で自動評価できるようになります.

ただし,USRはモデルの開発やチューニングを対象として開発された評価手法であり,モデル間の比較には適さないとされています.

2020年〜: LLMベースの対話システム

LLMベースの対話システムが主流になっている現在では,評価指標についても大きなパラダイムシフトが発生しました. 具体的には,LLM-as-a-Judgeによる評価手法の確立,マルチターン対話の評価の重要性,人間社会へのアラインメント,タスク指向と非タスク指向の統合といった変化が起こりました.

LLM-as-a-Judge

LLMの性能が飛躍的に高まったことを受けて,高性能なLLMを対話システムの評価モデルとして使用する手法です.

Zheng, L., et al. (2023)[30]は,LLMベースの対話システムに対応した会話能力と指示追従能力を評価するためのベンチマークであるMT-Benchを構築しました. LLM-as-a-Judgeによる評価では,LLMによる評価と人手による評価が高い相関を示すようになり,研究では80%以上の一致率を示しています.

また,Liu, Y., et al. (2023)[31]は,LLM-as-a-Judgeにおいてタスクを評価する際のプロンプトやChan-of-Thoughtの使い方,トークンの出現確率に基づくスコアリング関数などを提案しました.

g-evalG-Evalの評価方法

LLM-as-a-Judgeに関しては,様々なバイアスも指摘されています[30,32,33].ペアを比較する場合に最初の候補を選びやすいとされる位置バイアスや,より長い応答に良いスコアをつけやすい冗長性バイアス,自信と同じLLMシステムから出力された応答に対して高いスコアを付けやすい自己強化バイアスなどが発見されており,LLM-as-a-Judgeを用いた評価フレームワークを構築する場合には注意が必要であることがわかっています.

マルチターン対話特有の評価観点

以上のように,対話システムに関する評価フレームワークは直近では3回のパラダイムシフトを経て大きく進歩してきましたが,最近ではマルチターン対話の評価や重要性を増しています.

従来の評価フレームワークは基本的にシングルターンの対話を評価対象としたもので,マルチターンの評価に関しては多くても2〜3ターンの対話が限度でした. LLMベースの対話システムが主流になるにつれてマルチターンの対話が普通になり,より多くのターンを対象にした対話システム評価の方法が必要になりました. 最近の研究では,LLMベースの対話システムがマルチターンの対話を行うと,パフォーマンスが大きく低下することがわかっているほか,LLMがターンを跨いで発話する際に,自己矛盾を起こしたり対話品質が変動したりする現象も報告されています[34]

マルチターン対話評価のための評価観点

LLMベースの対話システムが主流になり,評価観点もPARADISEの時代から大きく変化・細分化されました.

最近の研究において取り上げられている観点には,例えば以下のようなものがあります. 評価方法にもよりますが,指標の多くがマルチターン対話の評価と関連するものになっています.

 

評価観点 概要 マルチターン評価
Coherence 一貫性
Consistency 整合性
Relevance 関連性  
Informativeness 情報量  
Fluency 流暢性  
Engagement 関与度
Safety 安全性  
Factuality 事実性  
Reasoning 推論能力  
Tool-use ツール使用  
Memory 記憶管理
Planning 計画立案
Creativity 創造性  
Empathy 共感
Personality 個性
Proactivity 積極性
Adaptability 適応性
Multimodal understanding マルチモーダル理解  
Long-term consistency 長期一貫性
Social intelligence 社会的知性

それぞれの観点について個別に評価指標を構築していたLLM以前の評価フレームワークとは異なり,LLM-as-a-Judgeではプロンプトエンジリアリングによって様々な観点から対話システムを評価させるようになりました. 以前とは異なり評価用のモデルのパラメータを学習する必要はなくなった一方で,ベンチマークの品質や評価用のLLMの振る舞いを精密に制御する技術が重要になってきています.

マルチターン対話評価のためのベンチマーク

マルチターン対話の評価のために以下のようなベンチマークが提案されています.

ベンチマーク 概要
BotChat (2024) [35] UniEval(対話の品質),PairEval(LLM間のペアワイズ比較),GTEval(人間が作成した正解の対話との比較)の3つの基準による評価フレームワーク
MT-Eval (2024) [36] Recollection (以前の会話から情報を想起する能力),Expansion (同じトピックに関する質問に対処する能力) など人間のLLMの相互作用に関するパターンを評価
LOCOMOCO (2024) [37] エージェントの長期的コンテキスト内での管理と応答の熟練度を評価する全体的な評価フレームワークを提示

 

参考文献

  1. S. Guan, H. Xiong, J. Wang, J. Bian, B. Zhu, and J.-g. Lou, “Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey,” arXiv preprint arXiv:2503.22458, Mar. 2025.
  2. N. Roy, J. Pineau, and S. Thrun, “Spoken dialogue management using probabilistic reasoning,” in Proc. 38th Annu. Meeting Association for Computational Linguistics (ACL), Hong Kong, China, 2000, pp. 93-100.
  3. E. Levin, R. Pieraccini, and W. Eckert, “A stochastic model of human-machine interaction for learning dialog strategies,” IEEE Trans. Speech Audio Process., vol. 8, no. 1, pp. 11-23, Jan. 2000.
  4. J. D. Williams and S. Young, “Partially observable Markov decision processes for spoken dialog systems,” Comput. Speech Lang., vol. 21, no. 2, pp. 393-422, Apr. 2007.
  5. D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” in Proc. Int. Conf. Learn. Representations (ICLR), 2015.
  6. O. Vinyals and Q. V. Le, “A Neural Conversational Model,” arXiv preprint arXiv:1506.05869, 2015.
  7. I. V. Serban, A. Sordoni, Y. Bengio, A. Courville, and J. Pineau, “Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models,” in Proc. 30th AAAI Conf. Artif. Intell., 2016, pp. 3776-3783.
  8. T.H. Wen et al., “A Network-based End-to-End Trainable Task-oriented Dialogue System,” in Proc. 15th Conf. European Chapter Assoc. Comput. Linguistics (EACL), vol. 1, 2017, pp. 438-449.
  9. N. Mrkšić, D. Ó Séaghdha, T.-H. Wen, B. Thomson, and S. Young, “Neural Belief Tracker: Data-Driven Dialogue State Tracking,” in Proc. 55th Annu. Meeting Assoc. Comput. Linguistics (ACL), vol. 1, 2017, pp. 1777-1788.
  10. Y. Zhang et al., “DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation,” in Proc. 58th Annu. Meeting Assoc. Comput. Linguistics: Syst. Demonstrations (ACL), 2020, pp. 270-278.
  11. T. B. Brown et al., “Language models are few-shot learners,” in Proc. 34th Int. Conf. Neural Information Processing Systems (NeurIPS), 2020, pp. 1877–1901.
  12. P. Lewis et al., “Retrieval-augmented generation for knowledge-intensive NLP tasks,” in Proc. 34th Int. Conf. Neural Information Processing Systems (NeurIPS), 2020, pp. 9459–9474.
  13. L. Ouyang et al., “Training language models to follow instructions with human feedback,” in Proc. 36th Int. Conf. Neural Information Processing Systems (NeurIPS), 2022, pp. 27730–27744.
  14. H. Touvron et al., “Llama 2: Open foundation and fine-tuned chat models,” arXiv preprint arXiv:2307.09288, 2023.
  15. Walker, M. A., Litman, D. J., Kamm, C. A., & Abella, A. (1997). PARADISE: A framework for evaluating spoken dialogue agents. Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, 271-280.
  16. Abella, Alicia, Michael K Brown, and Bruce Buntschuh. 1996. Development principles for dialog-based interfaces. In ECAI-96 Spoken Dialog Processing Workshop, Budapest, Hungary.
  17. Hirschman, Lynette, Deborah A. Dahl, Donald P. McKay, Lewis M. Norton, and Marcia C. Linebarger. 1990. Beyond class A: A proposal for automatic evaluation of discourse. In Proceedings of the Speech and Natural Language Workshop, pages 109-113.
  18. Hirschman, Lynette and Christine Pao. 1993. The cost of errors in a spoken language system. In Proceedings of the Third European Conference on Speech Communication and Technology, pages 1419-1422.
  19. Smith, Ronnie W. and Steven A. Gordon. 1997. Effects of variable initiative on linguistic behavior in humancomputer spoken natural language dialog. Computational Linguistics, 23(1).
  20. Danieli, Morena and Elisabetta Gerbino. 1995. Metrics for evaluating dialogue strategies in a spoken language system. In Proceedings of the 1995 AAAI Spring Symposium on Empirical Methods in Discourse Interpretation and Generation, pages 34-39.
  21. Simpson, A. and N. A. Fraser. 1993. Black box and glass box evaluation of the SUNDIAL system. In Proceedings of the Third European Conference on Speech Communication and Technology, pages 1423-1426.
  22. Li, J., Monroe, W., Ritter, A., Galley, M., Gao, J., & Jurafsky, D. (2016). Deep reinforcement learning for dialogue generation. In Proceedings of EMNLP, 1192-1202.
  23. Liu, C. W., Lowe, R., Serban, I., Noseworthy, M., Charlin, L., & Pineau, J. (2016). How NOT to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation. In Proceedings of EMNLP, 2122-2132.
  24. Lowe, R., Noseworthy, M., Serban, I. V., Angelard-Gontier, N., Bengio, Y., & Pineau, J. (2017). Towards an automatic turing test: Learning to evaluate dialogue responses. In Proceedings of ACL, 1116-1126.
  25. Tao, C., Mou, L., Zhao, D., & Yan, R. (2018). RUBER: An unsupervised method for automatic evaluation of open-domain dialog systems. In Proceedings of AAAI, 722-729.
  26. Ghazarian, S., Wei, J., Galstyan, A., & Peng, N. (2019). Better automatic evaluation of open-domain dialogue systems with contextualized embeddings. In Proceedings of NeuralGen Workshop at NAACL, 82-89.
  27. Mehri, S., & Eskenazi, M. (2020). USR: An unsupervised and reference free evaluation metric for dialog generation. In Proceedings of ACL, 681-707.
  28. Huang, L., Ye, Z., Qin, J., Lin, L., & Liang, X. (2020). GRADE: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of EMNLP, 9230-9240.
  29. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
  30. L. Zheng, W.-L. Chiang, Y. Sheng, S. Zhuang, Z. Wu, Y. Zhuang, Z. Lin, Z. Li, D. Li, E. P. Xing, H. Zhang, J. E. Gonzalez, and I. Stoica, “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena,” in Proc. 37th Conf. Neural Inf. Process. Syst. (NeurIPS 2023), New Orleans, LA, USA, 2023.
  31. Y. Liu, D. Iter, Y. Xu, S. Wang, R. Xu, and C. Zhu, “G-Eval: NLG evaluation using GPT-4 with better human alignment,” in Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, Singapore, Dec. 2023, pp. 2511–2522.
  32. L. Shi, C. Ma, W. Liang, W. Ma, and S. Vosoughi, “Judging the Judges: A Systematic Study of Position Bias in LLM-as-a-Judge,” arXiv:2406.07791, Jun. 2024.
  33. J. Ye et al., “Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge,” arXiv:2410.02736, Oct. 2024.
  34. P. Laban, H. Hayashi, Y. Zhou, and J. Neville, “LLMs get lost in multi-turn conversation,” arXiv preprint arXiv:2505.06120, 2025.
  35. H. Duan, J. Wei, C. Wang, H. Liu, Y. Fang, S. Zhang, D. Lin, and K. Chen, “BotChat: Evaluating LLMs’ capabilities of having multi-turn dialogues,” in Findings Assoc. Comput. Linguistics: NAACL 2024, Mexico City, Mexico, Jun. 2024, pp. 3184–3200.
  36. W.-C. Kwan, X. Zeng, Y. Jiang, Y. Wang, L. Li, L. Shang, X. Jiang, Q. Liu, and K.-F. Wong, “MT-Eval: A multi-turn capabilities evaluation benchmark for large language models,” in Proc. 2024 Conf. Empirical Methods Natural Language Process. (EMNLP), Miami, FL, USA, Nov. 2024, pp. 20153–20177.
  37. A. Maharana, D.-H. Lee, S. Tulyakov, M. Bansal, F. Barbieri, and Y. Fang, “Evaluating very long-term conversational memory of LLM agents,” in Proc. 62nd Annu. Meeting Assoc. Comput. Linguistics (ACL), Vol. 1: Long Papers, Bangkok, Thailand, 2024, pp. 13851–13870.

 

ご質問・お問い合わせは
こちらよりお送りください
採用
ARISE analyticsとは

PAGE TOP