yuisekiのブックマーク / 2024年3月28日 - はてなブックマーク

yuiseki id:yuiseki

2024年3月28日のブックマーク (20件)

osanseviero/twitter-airline-sentiment · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
Twitter US Airline Sentiment
yuiseki 2024/03/28
リンク
GitHub - t-davidson/hate-speech-and-offensive-language: Repository for the paper "Automated Hate Speech Detection and the Problem of Offensive Language", ICWSM 2017
yuiseki 2024/03/28
リンク
LibrAI/do-not-answer · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
GitHub - Libr-AI/do-not-answer: Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
yuiseki 2024/03/28
リンク
GitHub - kunishou/do-not-answer-ja
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2024/03/28
リンク
kunishou/do-not-answer-120-ja · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
【Nishika】ヘイトスピーチ検出コンペに参加し、準優勝しました
はじめにこんにちは。新卒2年目の中間です。業務では主にレコメンドシステムの改善に取り組んでいます。今回は、2022年12月に終了したNishika社主催の「ヘイトスピーチ検出」という自然言語データを扱うコンペで準優勝することができたので、取り組みなどを紹介しようと思います。コンペURL: https://competition.nishika.com/hate/summary 解法URL: https://competition.nishika.com/hate/topics/416 コンペについて参加しようと思ったきっかけ私は、自然言語データを扱うコンペに何度か参加したことがありますが、その中でも日本語を扱うコンペにはあまり参加したことがありませんでした。そこで今回は、日本語を扱うコンペに参加することで、日本語に対する自然言語処理の知見を深めたいと思い、参加しました。タスク
yuiseki 2024/03/28
リンク
p1atdev/open2ch · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
LLM Fine-Tuning (東大松尾研LLM講座 Day5資料)
東大松尾研サマースクール2023「大規模言語モデル」Day5の講義で使用した資料です。大規模言語モデルの Fine-Tuning をテーマに、Instruction Tuning および Parameter Efficient Fine-Tuning について体系的に紹介することを目指した内容となっています。講座リンク: https://deeplearning.jp/llm2023/
yuiseki 2024/03/28
リンク
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T-Sample
yuiseki 2024/03/28
リンク
日本語tokenizerを学習する
tokenizerを学習させてhuggingface hubにuploadするまでを行う作成したtokenizerはここ tokenizerはsentencepieceのunigramを使う学習にはhuggingfaceのtokenizer ライブラリを使う sentencepieceのunigramを、transf ormerのtokenizerに変換する方法がなさそうだったので、 PreTrainedTokenizerを継承してhuggingface hubから使えるようにした。スマートなやり方あれば教えてください。学習 tokenizerを学習させるモチベーション byte levelだと漢字が分割されるが、漢字1文字で1IDのほうが良さそう語彙数はそこそこのサイズがあったほうが良さそう https://www.anlp.jp/proceedings/annual_meeti
yuiseki 2024/03/28
リンク
Mixtral 250MのpretrainingからInstruction Tuningまで
MoEを持つMixtralがhuggingface/transf ormersで公開されているので、これを利用しつつ、250Mの小さいサイズとして日本語と英語でpretraining、finetuningを行います。学習させたものは以下 Pretraining lit-llamaを参考にするデータセットの準備 lit-llamaでは、torchで圧縮したデータセットを用意しておく必要がある。データセット作成用のscriptはこここれを参考にhuggingface datasetsからdatasetを作成できるように修正したものがこれ今回は合計8.64Bのデータセットを作成した。 total tokens: 8.64B wikipedia_ja: 844.65M wikipedia_en: 3.80B open-text-books: 60.17M oscar: 3.85B aozor
yuiseki 2024/03/28
リンク
llama2のpretrainingを試す
小さいサイズのllama2を日本語でpre_trainingしてみます。この記事では、以下が参考になれば良いかと思います pre_trainingのやり方 llama2の実装 huggingfaceへのupload すべてgoogle colab上で実行します。今回学習したモデルはここ学習にはlit-gptを使います。 lit-gptはlit-llamaのforkです。こちらの実装の参考になるのでコードを眺めてみるのもおすすめです。データセットの作成まずは学習用のデータセットを作成します。以下のコードを参考に、huggingface hubにあるデータセットから学習用のデータセットを作れるように修正します。作成したものは以下 tokenizerはhuggingface.tokenizersライブラリを使うようにしているので、適宜読み替えてください。 tokenizerには前回
yuiseki 2024/03/28
リンク
cis-lmu/udhr-lid · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
cis-lmu/GlotStoryBook · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
cis-lmu/Glot500 · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
サンゴ語 - Wikipedia
Buquiaux, Luc. Jean-Marie Kobozo et Marcel Diki-Kidiri, 1978 Dictionnaire sango-français... Diki-Kidiri, Marcel. 1977. Le sango s'écrit aussi... Diki-Kidiri, Marcel. 1978. Grammaire sango, phonologie et syntaxe Diki-Kidiri, Marcel. 1998. Dictionnaire orthographique du sängö Henry, Charles Morrill. 1997. Language, Culture and Sociology in the Central African Republic, The Emergence and Development
yuiseki 2024/03/28
リンク
Muennighoff/flores200 · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
lbourdois/language_tags · Datasets at Hugging Face
yuiseki 2024/03/28
リンク
- 2024年3月29日
- 2024年3月28日
- 2024年3月27日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx