エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
大規模言語モデルのフルスクラッチ作成の予習〜データセット取得、クリーニングまで〜|ウチダマサトシ
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
大規模言語モデルのフルスクラッチ作成の予習〜データセット取得、クリーニングまで〜|ウチダマサトシ
これを使ってデータセットの取得、クリーニングまでを試してみました。 実行環境はMacOS(M2 MBP)です。 ... これを使ってデータセットの取得、クリーニングまでを試してみました。 実行環境はMacOS(M2 MBP)です。 GPUが入ってる学習可能なマシンが今ないので、とりあえず手持ちのMacで予習しておきます。 データ収集加工手順のREADMEを元に作業してみました。 リポジトリ取得git clone https://github.com/matsuolab/ucllm_nedo_prod.gitとりあえず、リポジトリを取得します。 ダウンロードされるデータセットの容量が大きいので空きが大きいハードディスクで取得したほうが良いです。 データのダウンロードcd ucllm_nedo_prod/preprocessing # sudo apt-get install git-lfs # pip install git-lfs # apt-get, pipで入れる方法もあるがMacOSなのでbrewでg