[B! 固有表現抽出] time_wasterのブックマーク

time_waster id:time_waster

固有表現抽出に関するtime_wasterのブックマーク (4)

実務で使う固有表現抽出 / Practical Use of Named Entity Recognition
■イベント  ：自然言語処理勉強会 https://sansan.connpass.com/event/190157/ ■登壇概要タイトル：実務で使う固有表現抽出発表者：  DSOC R&D研究員高橋寛治 ▼Twitter https://twitter.com/SansanRandD
time_waster 2021/01/09
NLP

固有表現抽出
リンク
Simple Transformers 入門 (2) - 固有表現抽出｜npaka
「Simple Transf ormers」で「固有表現抽出」を行う方法をまとめました。 1. 固有表現抽出「固有抽出表現」（NER : Named Entity Recognition）とは、「固有表現」（組織名、人名、場所名、日付、金額など）をテキスト中から抽出するタスクです。トークンを分類するタスクでもあります。利用例は、次のとおりです。・大量の記事から、特定の企業の情報を抽出。・メールの文面から、スケジュール登録。・AIアシスタントで音声をテキスト化したものから、命令を認識。サポートモデルは、次のとおりです。・BERT ・CamemBERT ・DistilBERT ・ELECTRA ・RoBERTa ・XLM-RoBERTa「固有表現抽出」の最小限のコードは、次のとおりです。 from simpletransf ormers.ner import NERModel impor
time_waster 2021/01/06
BERT

固有表現抽出
リンク
はじめての自然言語処理 ELECTRA（BERT の事前学習手法の改良）による固有表現抽出の検証 | オブジェクトの広場
今回は BERT における事前学習の改良手法である ELECTRA の検証です。ELECTRA はモデルサイズ、データ、計算量が同一条件であればオリジナルの BERT を凌ぐ性能とのことなので結果が楽しみなところです。事前学習をした後のファインチューニングは、いつも livedoor News Corpus の文書分類ばかりだったので、今回は固有表現抽出を試すことにしました。 1. はじめに今回は BERT における事前学習の改良手法である ELECTRA 1 の検証です。 BERT に関しては第3回で取り上げていますが、トークン化が Sentencepiece である為、トークン単位での処理に難がありました2。今回は ELECTRA を試すにあたり、そのあたりの対応も入れ、 Megagon Labs さんから公開されている UD_Japanese-GSD v2.6-NE 3 を使っ
time_waster 2021/01/06
]

BERT

固有表現抽出
リンク
Transformersを用いた固有表現抽出のtips - MNTSQ Techブログ
TL;DR Transf ormersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。サンプル実装: github.com 背景この記事を目に留めていただいた方にはおそらくおなじみであろう Hugging Face の Transf ormers *1。 BERT等のTransf ormer素子ベース事前学習モデルを用いた転移学習が容易に実験できるライブラリである。最新モデルのモジュールがすごいスピードで実装されることに加えて、事前学習モデルおよび依存するトークナイザが一緒に管理・ダウンロードできる点がご利益として特に大きい。
time_waster 2021/01/05
NLP

固有表現抽出
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx