[B! Doc2Vec] shikimihuaweiのブックマーク

fastTextとDoc2Vecのモデルを作成してニュース記事の多クラス分類の精度を比較する - Qiita

概要自然言語処理で文書をベクトル化する手法として、fastText と Doc2vec のどちらが良いのかと思い、試してみることにしました、という趣旨の記事です。ソースコード今回の実験のために実装したコードはこちらに上げてあります。 https://github.com/kazuki-hayakawa/fasttext_vs_doc2vec また、記事本文中ではライブラリのimport文などは省略している箇所もありますので、それらに関しては上記ソースコードをご覧ください。ディレクトリ構成以下のようなディレクトリ構成です。２つのモデルを作成して、最終的に classifier.py で文書の分類を実行します。 fasttext_vs_doc2vec ├ dataset │ ├ news_text (ニュース記事本文格納ディレクトリ) │ └ make_dataset.py ├ li

shikimihuawei 2020/04/14

リンク

はじめての自然言語処理類似文書検索の手法と精度比較 | オブジェクトの広場

自然言語処理とは、人間が自然に使っている英語や日本語などの言語をコンピュータで処理する技術です。自然言語処理でできることには機械翻訳、要約生成、感情分析などがありますが、今回は比較的シンプルな例として類似文書検索に焦点を当ててみたいと思います。類似文書検索はテーマとしては真新しいものではありませんが、本記事では単語の分散表現を用いる手法や Watson Discovery も含めた各種の類似文書検索手法について、日本語データに対して精度比較試験をした結果を紹介します。複数の手法を同一の日本語データで比較した記事はあまり見ないので面白いのではないでしょうか。 1. 始めに本記事では類似文書検索の各手法について、単語の分散表現を用いる手法や Watson Discovery も含めて精度比較試験をした結果を紹介します。まず各手法の概要を紹介しますが、ここでは数学的な細かい説明などは省くので概

shikimihuawei 2020/04/08

リンク

Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

類似したコンテンツのタイトルは、女性アーティストだらけとなっている。浜崎あゆみは日本のレディー・ガガらしい。 Bag-of-wordsの欠点とDoc2Vecのメリット Bag-of-wordsは文書内の単語の出現回数をベクトルの要素とした分散表現だ。例えば、 { I, have, a, pen, I, have, an, apple } という単語区切りの文書があるとしよう。この文書をBag-of-wordsでベクトル化する。ベクトルの並び順をI, have, a, pen, an, appleとすると、 [2, 2, 1, 1, 1, 1] と表現することになる。単に出現頻度を計算しているだけなので、シンプルで計算効率よく分散表現を得ることが出来る。では、Bag-of-wordsの何が問題なのだろうか？Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば

shikimihuawei 2020/02/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

Doc2Vecに関するshikimihuaweiのブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (7)

Doc2Vecに関するshikimihuaweiのブックマーク (3)

fastTextとDoc2Vecのモデルを作成してニュース記事の多クラス分類の精度を比較する - Qiita

はじめての自然言語処理 類似文書検索の手法と精度比較 | オブジェクトの広場

Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

はじめての自然言語処理類似文書検索の手法と精度比較 | オブジェクトの広場