ブックマーク / zenn.dev/elith (1)

  • 日本語LLMの学習に向けたデータ前処理

    はじめに 大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。 記事では、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法について解説します。 言語検出 Webから大規模に収集したデータには、様々な言語が含まれます。 日語をターゲットとした言語モデルの学習のためには、日語のデータのみを抽出する必要があります。 言語検出のPythonライブラリとして、pycld3やlangdetectが有名ですが、2022/1/11にlinguaがリリースされています。開発者のベンチマークによると、性能は他のライブラリと比べて高いです。 特にpycld3はp

    日本語LLMの学習に向けたデータ前処理
  • 1