エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
検索結果スクレイピング&doc2vecで企業の業種分類(1) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
検索結果スクレイピング&doc2vecで企業の業種分類(1) - Qiita
アドテク企業に転職したら、顧客の業種分類コードが存在していませんでした。集計で関連業種を目視でピ... アドテク企業に転職したら、顧客の業種分類コードが存在していませんでした。集計で関連業種を目視でピックアップしたらえらく時間がかかってしまったので、今後のためにアドテク的に自動分類する方法を考えました。 手元には顧客名と配信した広告のLPのURLしかありません。 どんなクラスタ数になるのかもよくわからないので、企業を説明する文章を外部から取得しベクトル化したうえで、デンドログラムで階層化するのが今回のゴールです。 今回の構成 Google検索結果からのサイトURLの取得&検索結果テキストの取得(beautifulsoup)←いまココ Doc2vecでベクトル化 デンドログラム作成 Google検索結果からのサイトURLの取得&検索結果テキストの取得 技術的には使い古されているのですが、実際に検索結果のテキストを使おうとするとノイズの少ないデータを取ってくるのが結構難しいので、参考になれば幸い