⼤規模⾔語モデル (LLM) による新規データ⽣成、合成データの活⽤
ARISE analytics の澁⾕です。本記事では⼤規模⾔語モデル (LLM) 開発においてよく使われるようになってきた合成データについて紹介していきます。 合成データとは⼈間が直接作成しないデータ、最近では特に LLM が⽣成したデータを合成データと呼びます。データサイエンスでは例えば、LLM を含む機械学習モデル⽤の学習データの⽣成や、性能評価のための正解データの⽣成などへの活⽤が考えられます。 背景として、昨年の中頃までは⼀部疑問視されていた[1] LLM などで⽣成された合成データの活⽤は、昨今のオープンソース LLM の⾼性能化を受けて急速に進んでいます。合成データは AI...