ツイートを形態素解析してカテゴリ分類したい! ということで、簡易的に特徴語のカテゴリを得る方法を考えます。 トピックモデルとかそれらしいアルゴリズムを使うのが本筋かもしれませんが、もっと単純に「芸能ジャンルの単語が多いから芸能ジャンルのツイート」みたいなのでいいんですよね。量も多くないし(1時間最大100ツイート)。 ということで、はてなキーワード自動リンクAPIを使って、文章中のワードのカテゴリを調べていきます。 はてなキーワード自動リンクAPIとは はてなの記事って、それっぽい語句に勝手にリンクが張られてますよね。はてなキーワード自動リンクAPIは、文章を与えると、そのようなリンクを自動で生成してくれるAPIです。 詳細:はてなキーワードAPI - Hatena Developer Center いわゆるリンクを生成するだけでなく、リンクを張るべき単語をxml形式で返してくることもでき
最近、スクレイピングで記事を集めることにハマっているのですが、その記事の中に含まれるトピックなり特徴語なりを簡単にチェックする方法はないかと悩んでました。 例えば、音楽ナタリーから好きなバンドの記事を集めてくる際には、関連リンクのタグを取ってきてアーティスト名を取ってきて、「これは興味のある/ない記事だ」という判別を行っていましたが、この方法はナタリーのサイトでしか使えないし、少しhtmlのタグの名前が変わっちゃうだけで使えなくなります。 頭のいい人ならここから「自然言語処理だ!」「機械学習だ!」「トピックモデルだ!」となると思うのですが、彼らは人生の9割と辞書と学習データの整備に費やしている印象があるので、週末きちんと遊びたい私は別の方法がないか探していました。 そこで、 APIを使って特徴語を抽出する 抽出した特徴語や、そのカテゴリから簡単なルールベースで判別する という方法でうまくい
サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ
初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの本文をテキストフ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く