はじめに 文章を固定長ベクトルに変換する方法はないかなあと調べていたら、SentenseBertというものを見つけました.それ以外にもベクトル化にはいろいろな方法があるようで調べた内容を少しまとめてみようと思います. ベクトル化の用途 ベクトル化することによる応用の仕方はいろいろですが、文書ベクトルの応用としては以下のようなことが可能です. 類似文書の検索 文章間の類似度を測っておすすめの記事をレコメンド 画像検索エンジン(文章ベクトルと画像ベクトルの類似度を測る) さまざま手法 word2vecに始まり、自然言語の機械学習によるベクトル化のアルゴリズムは常に改良されてきました. いくつか有名なものをピックアップして紹介します. word2vec(2013) 米グーグルの研究者、トマス、ミニコフらが開発しました。 周辺語から中心単語(CBOW), あるいは中心単語から周辺語(Skip-gr
![自然言語処理 ベクトル化の手法](https://cdn-ak-scissors.b.st-hatena.com/image/square/d4b3b9156e5b4ad208b0208bb3b3f7f5e61145f0/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--2yCNyn_x--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E8%252587%2525AA%2525E7%252584%2525B6%2525E8%2525A8%252580%2525E8%2525AA%25259E%2525E5%252587%2525A6%2525E7%252590%252586%252520%2525E3%252583%252599%2525E3%252582%2525AF%2525E3%252583%252588%2525E3%252583%2525AB%2525E5%25258C%252596%2525E3%252581%2525AE%2525E6%252589%25258B%2525E6%2525B3%252595%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Ayoshikawat64m%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EtL0FPaDE0R2ptcjdXOWJJcWxzZjNIUll5VnRRUXJtT01ULUtuZUQ2NklqR0J0RHc9czk2LWM%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)