はじめに こんにちは。新卒2年目の中間です。業務では主にレコメンドシステムの改善に取り組んでいます。 今回は、2022年12月に終了したNishika社主催の「ヘイトスピーチ検出」という自然言語データを扱うコンペで準優勝することができたので、取り組みなどを紹介しようと思います。 コンペURL: https://competition.nishika.com/hate/summary 解法URL: https://competition.nishika.com/hate/topics/416 コンペについて 参加しようと思ったきっかけ 私は、自然言語データを扱うコンペに何度か参加したことがありますが、その中でも日本語を扱うコンペにはあまり参加したことがありませんでした。そこで今回は、日本語を扱うコンペに参加することで、日本語に対する自然言語処理の知見を深めたいと思い、参加しました。 タスク
tokenizerを学習させてhuggingface hubにuploadするまでを行う 作成したtokenizerはここ tokenizerはsentencepieceのunigramを使う 学習にはhuggingfaceのtokenizer ライブラリを使う sentencepieceのunigramを、transformerのtokenizerに変換する方法がなさそうだったので、 PreTrainedTokenizerを継承してhuggingface hubから使えるようにした。 スマートなやり方あれば教えてください。 学習 tokenizerを学習させるモチベーション byte levelだと漢字が分割されるが、漢字1文字で1IDのほうが良さそう 語彙数はそこそこのサイズがあったほうが良さそう https://www.anlp.jp/proceedings/annual_meeti
MoEを持つMixtralがhuggingface/transformersで公開されているので、これを利用しつつ、250Mの小さいサイズとして日本語と英語でpretraining、finetuningを行います。 学習させたものは以下 Pretraining lit-llamaを参考にする データセットの準備 lit-llamaでは、torchで圧縮したデータセットを用意しておく必要がある。データセット作成用のscriptはここ これを参考にhuggingface datasetsからdatasetを作成できるように修正したものがこれ 今回は合計8.64Bのデータセットを作成した。 total tokens: 8.64B wikipedia_ja: 844.65M wikipedia_en: 3.80B open-text-books: 60.17M oscar: 3.85B aozor
小さいサイズのllama2を日本語でpre_trainingしてみます。 この記事では、以下が参考になれば良いかと思います pre_trainingのやり方 llama2の実装 huggingfaceへのupload すべてgoogle colab上で実行します。 今回学習したモデルはここ 学習にはlit-gptを使います。 lit-gptはlit-llamaのforkです。こちらの実装の参考になるのでコードを眺めてみるのもおすすめです。 データセットの作成 まずは学習用のデータセットを作成します。 以下のコードを参考に、huggingface hubにあるデータセットから学習用のデータセットを作れるように修正します。 作成したものは以下 tokenizerはhuggingface.tokenizersライブラリを使うようにしているので、適宜読み替えてください。 tokenizerには前回
Buquiaux, Luc. Jean-Marie Kobozo et Marcel Diki-Kidiri, 1978 Dictionnaire sango-français... Diki-Kidiri, Marcel. 1977. Le sango s'écrit aussi... Diki-Kidiri, Marcel. 1978. Grammaire sango, phonologie et syntaxe Diki-Kidiri, Marcel. 1998. Dictionnaire orthographique du sängö Henry, Charles Morrill. 1997. Language, Culture and Sociology in the Central African Republic, The Emergence and Development
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く