エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
spaCyで文字単位のNERアノテーションを単語単位に変換する - radiology-nlp’s blog
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
spaCyで文字単位のNERアノテーションを単語単位に変換する - radiology-nlp’s blog
はじめに 固有表現抽出 (Named Entity Recognition (NER)) は,英語データに対して行う場合,基本的に単... はじめに 固有表現抽出 (Named Entity Recognition (NER)) は,英語データに対して行う場合,基本的に単語単位の系列ラベリングタスクとなります. このため,データセットもあらかじめ単語単位でラベル付けされていると便利です. しかし,世の中には残念ながら単語単位でラベル付けされていない場合も沢山あります. たとえば brat でアノテーションされたデータセットでは,各ラベルの位置は文書頭から「何単語目か」ではなく「何文字目」で表されています(!) そこで,spaCyを用いて文字単位のNERデータセットを単語単位に素早く変換してみました. 動作環境 python v3.6.4 beautifulsoup4 v4.9.3 spacy v2.1.9 pandas v1.1.5 対象データ ここでは i2b2 2012 shared task を例にとります. https

