TechCrunch本家サイトでよく使われる英単語集を作ってみた。 まずは単純に過去1年分の記事をクローリングして、単語に分割して出現頻度順にソートしてみた。 当然のことながら"this"とか"apple"のような基礎的な英単語が上位に出現してしまう。また、基礎単語以外でも一般のニュースサイトでも頻出しそうな単語も多く含まれ、ノイズ(テック系やスタートアップ系ならではの単語以外のもの)が多い。 このままだと上位500ワードを抽出してもTechCrunch固有の単語集にはならず、「TechCrunchによく出る英単語集」とは言いがたい。 そこで、下記のような手順で「ITっぽい英単語」を抽出した。 海外のIT用語集サイト*1でよく使われている英単語を抽出 ここから中学・高校で習う英単語を除外 各単語のTechCrunch内での出現頻度を、td-idf法でスコアリング スコアでソートして、上位5