アドテク企業に転職したら、顧客の業種分類コードが存在していませんでした。集計で関連業種を目視でピックアップしたらえらく時間がかかってしまったので、今後のためにアドテク的に自動分類する方法を考えました。 手元には顧客名と配信した広告のLPのURLしかありません。 どんなクラスタ数になるのかもよくわからないので、企業を説明する文章を外部から取得しベクトル化したうえで、デンドログラムで階層化するのが今回のゴールです。 今回の構成 Google検索結果からのサイトURLの取得&検索結果テキストの取得(beautifulsoup)←いまココ Doc2vecでベクトル化 デンドログラム作成 Google検索結果からのサイトURLの取得&検索結果テキストの取得 技術的には使い古されているのですが、実際に検索結果のテキストを使おうとするとノイズの少ないデータを取ってくるのが結構難しいので、参考になれば幸い