「自然言語MLエンジニアから学ぶ!対話型AIにおける高品質なデータセット作成ノウハウ」 https://campaign.fastlabel.ai/20220930-seminar
自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセット
自然言語処理技術のなかでも固有表現抽出(Named Entity Recognition; NER)は情報抽出の処理をやろうとするときにとても役立つ。 応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析(照応解析・共参照解析)のような文脈解析処理などに用いられる。 最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。 しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く