2021/11/26のNLP TECH TALK#4のLTでお話ししたslideです。 https://worksapplications.connpass.com/event/228075/
固有表現認識は自然言語処理の基礎技術であり、様々なタスクの要素技術として使われます。たとえば、情報抽出や対話システム、質問応答といった応用システムの中で固有表現認識は使われることがあります。また、関係認識やEntity Linkingといった基礎技術で使われることもあります。 従来の固有表現認識では、言語に特有な特徴や外部知識に依存した手法が使われていました。これらの手法では、特徴を人間が定義することで、高性能な認識を実現していました。ただ、言語依存の特徴を使うため、モデルを新しい言語に対して適用する際のコストが高くなる問題があります。 本記事では、ディープラーニングを使って言語的な特徴や外部知識に依存しない固有表現認識器を作成します。本文は以下の内容で構成されています。 実装するモデルの説明 モデルの実装 モデルの学習 全体のコードは以下のGitHubリポジトリにあります。スターしていた
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く