エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
TF-IDFを使って企業紹介ページから各企業の特徴語を抽出してみた - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
TF-IDFを使って企業紹介ページから各企業の特徴語を抽出してみた - Qiita
やったこと 文書の特徴語の抽出方法として「TF-IDF」という比較的簡単なものがあることを知ったので、身... やったこと 文書の特徴語の抽出方法として「TF-IDF」という比較的簡単なものがあることを知ったので、身近なデータを使って試してみた。 弊社スローガン株式会社が運営している新卒学生向けの求人メディア「Goodfind」では、ベンチャー企業・スタートアップ企業約100社を掲載しているので、この企業紹介ページのテキストを元に、各社の特徴語を抽出した。しれっと自社の求人もここに掲載しているので、自社の特徴語を見て結果の妥当性を考えた。 使ったツール・技術 MeCab 非常に有名なオープンソース形態素解析エンジン。形態素解析とは、文書を単語ごとに分割し、その単語に対して品詞をタグ付けする作業を指す。形態素解析は日本語のような単語が区切られていない言語では必須の前処理である。 http://taku910.github.io/mecab/ 文書中の単語の重みを表す値。詳しい定義は下記を参照。 htt