タグ

ブックマーク / hironsan.hatenablog.com (2)

  • ディープラーニングで作る固有表現認識器 - Ahogrammer

    固有表現認識は自然言語処理の基礎技術であり、様々なタスクの要素技術として使われます。たとえば、情報抽出や対話システム、質問応答といった応用システムの中で固有表現認識は使われることがあります。また、関係認識やEntity Linkingといった基礎技術で使われることもあります。 従来の固有表現認識では、言語に特有な特徴や外部知識に依存した手法が使われていました。これらの手法では、特徴を人間が定義することで、高性能な認識を実現していました。ただ、言語依存の特徴を使うため、モデルを新しい言語に対して適用する際のコストが高くなる問題があります。 記事では、ディープラーニングを使って言語的な特徴や外部知識に依存しない固有表現認識器を作成します。文は以下の内容で構成されています。 実装するモデルの説明 モデルの実装 モデルの学習 全体のコードは以下のGitHubリポジトリにあります。スターしていた

    ディープラーニングで作る固有表現認識器 - Ahogrammer
  • ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer

    記事ではElasticsearchとBERTを組み合わせて類似文書検索を行う方法について紹介します。Elasticsearchでは最近、ベクトルに対する類似文書検索の機能が実装されました。一方、BERTを使うことでテキストを固定長のベクトルに変換することができます。つまり、BERTを使ってテキストをベクトルに変換すれば、Elasticsearchを使って類似文書検索ができるということになります。 記事では以下のアーキテクチャでElasticsearchとBERTを組み合わせた検索システムを実現します。Dockerを使ってアプリケーション、BERT、Elasticsearchのコンテナを分けることでそれぞれをスケールしやすくする狙いがあります。記事中では重要な部分のみ提示しますが、システム全体はdocker-composeのファイルとして記述しこちらのリポジトリに置いてるので、参照してく

    ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer
  • 1