タグ

Twitterと自然言語処理に関するyogasaのブックマーク (3)

  • 類似性を探そう! - てっく☆ゆきろぐ

    FreeBSD、MacOSX、Webアプリ系、RDBMS(PostgreSQL)などの話題が中心になるかと思います。 ふぁぼったーという、twitterのfavoriteをカウントして集計してくれるサービスがあるのですが、たまに似たようなものというか、ほとんど同じものがふぁぼられてることがあります。 似たようなものを排除できないかなーと思って、いろいろ考えてみました。 というか、実況で同一postで並んでるのをひたすらfavoriteして、TOPが埋まって陶しいんですよ! 方針はこんなかんじ。 1.ふぁぼったーの「人気」から上位・・・だいたい10ページ分を取得 2.HTMLを解析してデータ抽出(スクレイピング) 3.抽出したデータをデータベースに突っ込む 4.突っ込んだデータをもとに、類似性を計算 1〜3は Ruby 、 4は(モジュール等の関係から) Perl を使いました。 1.ne

    類似性を探そう! - てっく☆ゆきろぐ
  • Twitterの投稿内容から鬱度を測定する - Unchained Life

    もうすぐ5月です。 Twitterの投稿内容から度を測定するRubyスクリプトを書いてみました。 これには東京工業大学の高村さんが公開している単語感情極性対応表というものを使っています。 http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html これはある単語がどの程度の感情を表すかを数値化した表で、-1 ~ +1 までの値が特定の単語に割り当てられています。 その単語がネガティブな感情表現だとマイナスの値、ポジティブな感情表現だとプラスの値になっています。 なので、度を測定といってもポジティブな投稿内容が多いときにはプラスの値を返します。 また日語文の形態素解析にはYahoo!の日形態素解析APIを使っています。 http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

    Twitterの投稿内容から鬱度を測定する - Unchained Life
  • 橋本商会 » スーパーボット大戦

    Twitter / ahokaiという、自分の過去の発言を収集し、n-gramモデルとマルコフ連鎖を用いて分析・発言するプログラムを作りました。いわゆるボットという奴です。 方法については「圧縮新聞」を作った – phaニート日記が詳しいです。 こちらからahokaiの全ソースコードをダウンロードできます。 shokai / bot-ahokai / overview — bitbucket.org 詳しい作り方やいきさつはbot ahokaiの作成 – 橋詳解に書いたのですが、 今回はahokaiの様な「自分の発言を再構成して喋るbot」を設置する方法を書きます。 botがたくさん喋ってくれればクリスマスも寂しくないし、師走で忙しくても平気です。みんなで実在の人物を元にしたボットを設置して裏twitterを作り、最終戦争終結後もボット同士が喋り合いスーパーボット大戦しましょう。 主な

    橋本商会 » スーパーボット大戦
  • 1