本記事ではFaissやScaNNといったライブラリに実装されているIVF-PQ系の近似近傍探索手法のパラメータチューニングの際に気をつける点を紹介します。pythonのプログラム上で動かすことを想定していて、vertex AI vector searchのようなAPIで行うものは対象外です。ただ、OpenSearchではfaissを近似近傍探索として選ぶことができるため、チューニングの参考になるかもしれません。 はじめに: ANN-Benchmarksの罠 ANNの性能とパフォーマンスの参考になるサイトとして、ANN-Benchmarksというサイトがあります。このサイトでは各近似近傍探索のパフォーマンスが様々なベンチマークにより比較されており、近年ではFaissに実装されているFastScanやTensorFlow recommendersから使えるScaNNといった、高速化されたIVF
![近似近傍探索のチューニングで気をつけること](https://cdn-ak-scissors.b.st-hatena.com/image/square/4db3db26487035866b9f19cb0e9e672bedf98654/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--tm9MmZQB--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E8%2525BF%252591%2525E4%2525BC%2525BC%2525E8%2525BF%252591%2525E5%252582%25258D%2525E6%25258E%2525A2%2525E7%2525B4%2525A2%2525E3%252581%2525AE%2525E3%252583%252581%2525E3%252583%2525A5%2525E3%252583%2525BC%2525E3%252583%25258B%2525E3%252583%2525B3%2525E3%252582%2525B0%2525E3%252581%2525A7%2525E6%2525B0%252597%2525E3%252582%252592%2525E3%252581%2525A4%2525E3%252581%252591%2525E3%252582%25258B%2525E3%252581%252593%2525E3%252581%2525A8%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3Anadare%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzU4MjQ4ZWRhNzUuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3ADMM%252520Data%252520Blog%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EvQUdObXl4Ym53MU9NOHRzSkV1V2VuckZDSjdfRkdvNF9sTmxXSF90WTdXRU40UT1zOTYtYw%3D%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)