日本語LLMの学習に向けたデータ前処理

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/elith

21 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

deejayroka “言語モデルの学習に向けたデータ前処理として、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングによりノイズを除去する方法について解説”

2024/01/31 リンク

misshiki “言語モデルの学習に向けたデータ前処理として、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングによりノイズを除去する方法について解説”

2024/01/23 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

日本語LLMの学習に向けたデータ前処理

はじめに大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質な... はじめに大規模言語モデルの学習にあたり、大規模なデータセットで学習することが重要ですが、高品質なデータを用いることも重要です。 Webなどから大規模に収集したデータを用いることが一般的ですが、そのままだとかなりノイズが多く、モデルの学習が困難です。本記事では、言語検出、テキスト正規化、テキストのチャンキング、品質フィルタリングのデータ前処理によりノイズを取り除く方法について解説します。言語検出 Webから大規模に収集したデータには、様々な言語が含まれます。日本語をターゲットとした言語モデルの学習のためには、日本語のデータのみを抽出する必要があります。言語検出のPythonライブラリとして、pycld3やlangdetectが有名ですが、2022/1/11にlinguaがリリースされています。開発者のベンチマークによると、性能は他のライブラリと比べて高いです。特にpycld3はp

ブックマークしたユーザー

deejayroka2024/01/31
kerotan072024/01/24
toku-hiro2024/01/23
misshiki2024/01/23
akishin9992024/01/23
pokutuna2024/01/23
mogura002024/01/23
coroske2024/01/23
Galbo2024/01/23
yuiseki2024/01/23
diabah_blue2024/01/22

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx