エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
binWord/blog - IT業界のキーワードを探す
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
binWord/blog - IT業界のキーワードを探す
とある事情で、IT関連ニュースで使われる新語を調べてみることにした。 Googleなどのように自前で検索ロ... とある事情で、IT関連ニュースで使われる新語を調べてみることにした。 Googleなどのように自前で検索ロボットを使うことはできないから、特定のニュースサイトのバックナンバーをダウンロードして、形態素解析ツールにかけてみればよいのではないかと考えた。さて、どんな言葉がよく使われているのか? 分析対象とするのは、インプレスのページ(PC Watch、INTERNET Watch、AV Watch、Broadband Watch、ケータイ Watch)、それとZDNNのニュース速報にする。 上記のニュースページから、ダウンロードNinja2を使ってバックナンバーを一括ダウンロード。 ニュース記事には、本文以外にさまざまなリンクが張られているから、これらを除外して本文だけを取り出したい。また、HTMLタグを削除して、プレーンなテキストにする必要もある。これらを、Rubyのスクリプトで記述した。