サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
radiology-nlp.hatenablog.com
NLP Progress という素晴らしいリポジトリを見つけました。整理の意味を込めてまとめます。 NLPの種々のタスクとそのSOTAが掲載されています。 NLPのベンチマークとなる有名なデータセットも一緒に紹介されており,NLP論文を読むうえで大きな助けとなってくれるでしょう。 2. 質問応答 QA (Question Answering) 概要 質問に正しく応答するタスク. さまざまな問題設定が存在し, それぞれに対してアプローチも異なるため, ここで独立した項として扱う. 2-1. 択一式問題への回答 概要 問題文と選択肢が与えられ, 正解を選択肢から一つ選ぶ. データセット例 英語 ARC (AI2 Reasoning Challenge) Dataset Easy Set: 小学校〜高校レベルの知識を想定した択一式問題. Challenge Set: 単純な検索ベースや共起ベース
背景 PyTorchでHugging Face Transformersを使って自然言語処理を行うとき,文章をモデルに入力するためにはまず単語単位に分かち書き (tokenize) しなければなりません. この前処理が思ったよりもやっかいなのです. 事前学習済みのモデルをTransformers公式から提供されているものから選んでしまえば,ここはあまり問題になりません.Transformers付属のtokenizerを使って一発で分かち書きできるからです. 実際,東北大からTransformersを通じて日本語BERT事前学習済みモデルが公開されて久しいので,日本語BERTモデルを使うのはだいぶ楽になりました. huggingface.co しかし,別の事前学習済みの日本語BERTモデルで,Transformersのプラットフォームに載っていないものはいくつか存在します. これらのモデルを
はじめに 固有表現抽出 (Named Entity Recognition (NER)) は,英語データに対して行う場合,基本的に単語単位の系列ラベリングタスクとなります. このため,データセットもあらかじめ単語単位でラベル付けされていると便利です. しかし,世の中には残念ながら単語単位でラベル付けされていない場合も沢山あります. たとえば brat でアノテーションされたデータセットでは,各ラベルの位置は文書頭から「何単語目か」ではなく「何文字目」で表されています(!) そこで,spaCyを用いて文字単位のNERデータセットを単語単位に素早く変換してみました. 動作環境 python v3.6.4 beautifulsoup4 v4.9.3 spacy v2.1.9 pandas v1.1.5 対象データ ここでは i2b2 2012 shared task を例にとります. https
TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くした はじめに 日本語Wikipediaで事前学習されたBERTモデルとしては, 以下の2つが有名であり, 広く普及しています: SentencePieceベースのモデル (Yohei Kikuta さん提供) TensorFlow版 Juman++ベースのモデル (京大黒橋研提供) TensorFlow版 PyTorch版(Hugging Face transformers準拠) このうち, SentencePieceベースのものは現在TensorFlow版のみの提供となっており, PyTorch版は存在しません。 そのため, 私のよう
このページを最初にブックマークしてみませんか?
『radiology-nlp.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く