エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Pythonのベクトルの類似度計算高速化 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Pythonのベクトルの類似度計算高速化 - Qiita
3万文書をベクトル化し、類似度計算するときに大量ベクトルの類似度計算にすさまじい時間がかかっていた... 3万文書をベクトル化し、類似度計算するときに大量ベクトルの類似度計算にすさまじい時間がかかっていたので、効率的な計算方法を調査。scipyのライブラリを使うことで100倍くらい速くなったのでメモ。 from scipy.spatial import distance # ベクトルの作成 (Mは30,000×100の配列) M = [a.vector for a in articles] # a.vectorは100要素のnp.arrayベクトル # 30,000の記事の総当たり類似度を計算 dist_M = distance.cdist(M, M, metric='cosine') 結果がコサイン類似度ではなくコサイン距離で出るので注意。 今回の場合同じ配列同士を計算しているので、上三角形だけ計算するpdistの方がいいらしい。(計算時間が2分の1になる)。後ほど試す。