こんにちは!sakasegawaです! ( https://twitter.com/gyakuse ) ChatGPTについて、これ前提として知っておくと便利だなーってことをまとめました! ChatGPTについて 言語モデル的特徴 ChatGPTで使われているGPT-3(正確には3.5シリーズ)は膨大なデータをもとに作られた言語モデルです。 GPT-3ではCommonCrawl、WebText 等のデータセットをもとに学習したModelが使われていて、CommonCrawlが60%程度を占めています。CommonCrawlでは、英語が50%程度に対し、日本語の含有率は5%程度となり、日本語に対してはナレッジベースとしての性能が低くなります(単純に1/10の性能とまではいかないと思います. 体感で半分くらいの性能) また、Transformer型(要は古代ツイッタラーにわかりやすくいうと超す