nabinnoのブックマーク - はてなブックマーク

nabinno id:nabinno

ブックマーク / qiita.com/JunjiIwatani (1)

Pythonのベクトルの類似度計算高速化 - Qiita
3万文書をベクトル化し、類似度計算するときに大量ベクトルの類似度計算にすさまじい時間がかかっていたので、効率的な計算方法を調査。scipyのライブラリを使うことで100倍くらい速くなったのでメモ。 from scipy.spatial import distance # ベクトルの作成 (Mは30,000×100の配列） M = [a.vector for a in articles] # a.vectorは100要素のnp.arrayベクトル # 30,000の記事の総当たり類似度を計算 dist_M = distance.cdist(M, M, metric='cosine') 結果がコサイン類似度ではなくコサイン距離で出るので注意。今回の場合同じ配列同士を計算しているので、上三角形だけ計算するpdistの方がいいらしい。（計算時間が２分の１になる）。後ほど試す。
nabinno 2018/10/09
qiita

scipy

python

analytics
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx