タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

NLPとテキストマイニングに関するtakuma510のブックマーク (3)

  • デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記

    Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します. 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011] Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味のある方は一読されると良いかと思います. 概要 噂と噂に関連するツイートを検出すると同時に,その噂の信頼度を推定 様々な特徴量を用いて実験 ツイートの文面を使って分類器を作るだけで,高い精度が実現可能! ただし,アノテートされたツイートを教師データとして使用 背景 マイクロブログ上で噂は急速に広まる デマや誤情報は,企業にとって大きな障害となりうるので自動で特定したい この研究では,以下の手順でデマや誤情報を検出する 特定の噂に関して言及しているツイート

    デマをデマと見抜けない人はTwitterを使うのは難しい - kisa12012の日記
  • 第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

    takuma510
    takuma510 2011/06/04
    コーパスの集め方とか
  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • 1