タグ

nlpとtwitterに関するnhayatoのブックマーク (10)

  • 鬱ツイート判定器を作った | 774::Blog

    ツイート判定器を作った。 ツイート判定器 http://depression.id774.net/depression/ ツイートの内容を入力するか貼り付けて送信すると「ツイート」かどうか判定してくれる。 あれっ、これもしかしてツイートかな?と思ったときや、この人ってツイートしているんじゃないかな?と思ったときなどにご利用ください。 実装にあたってはこちらの記事を参考にしました。 またソースコードはこちらに公開してあります。 スコアについて、トータルスコアは全語彙の平均を 3 乗したもので数値が低ければ低いほどです。 -0.20 以下がツイートと判定されます。

  • 論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm

    "Automatically Constructing a Normalisation Dictionary for Microblogs" 概要 Twitterとかでの単語の正規化用の辞書を作る話。 例、2morw→tomorrow 手法 文脈類似度の似た、辞書にない単語(OOV)と辞書にある単語(IVのペア)を集める 集めたペアを文字列的な類似度でリランキング 一定の長さと頻度以上の単語のみを対象とする。 文脈類似度 ある単語が出てきた時に周りに出てくる単語。 これが似ている単語は意味が似ていると考えられる。 文脈類似度を測る時の設定 窓幅(単語の周りの何個までを文脈として考えるか) n-gramのnをいくつにするか インデックス: 文脈に相対的な位置情報をつけるか IV or All: IV だけを文脈に登場した単語としてみなすかどうか 品詞や構文的な情報は使っていない。 類似度の測

    論文感想: "Automatically Constructing a Normalisation Dictionary for Microblogs"(EMNLP-CoNLL 2012) - 唯物是真 @Scaled_Wurm
  • 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足

    来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/misc/nlp2012_nakatani.pdf 【注】 言語処理学会の公開規定が「大会での発表後」であったため、一旦公開を取り下げていましたが、発表終了したので再公開しました。 http://www.anlp.jp/rules/repository.html 【/注】 第8回 TokyoNLP で発表した「∞-gram を使った短文言語判定」と基線は同じ。ただしその発表の時にお約束していたとおり、17言語の判定精度で 99.1% を達成している。99% 越えは作り始める前から

    極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足
  • 論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012) - 唯物是真 @Scaled_Wurm

    Creating Stories: Social Curation of Twitter Messages Akisato Kimura: Research Interests: Assisting social curation of Twitter messages 追記 読んだ論文とリンク先の論文(4ページ)が微妙に違うっぽいというか、前に印刷したものと同じ内容の論文(8ページ)を見つけられなかった……なんで? 概要 自動でTogetterっぽいのを作る論文。 種となるツイート集合が与えられた時に追加すべきツイートをランキングするタスクに落としこんでいる。 SVMrankを使って学習。 学習に用いたFeature 種となるツイートとの単語的な類似度の和(TF, TFIDF, binary, sumBM25, のcos類似度)。 種となるツイートとのハッシュタグの類似度の和 種に含まれ

    論文感想: "Creating Stories: Social Curation of Twitter Messages"(ICWSM2012) - 唯物是真 @Scaled_Wurm
  • overlasting.net

    overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy

  • PerlでKyTea

    1. OECU Visual Media Lab. Perl で KyTea 大阪電気通信大学 吉岡 康平 (@_pawa_) 2011 年 11 月 26 日 Kansai.pm #14 1 2. OECU Visual Media Lab. Kansai.pm #14 自己紹介 大阪電気通信大学 3年生 視覚・メディアの研究室( 3 年次に卒研がある) 趣味:草野球 2 3. OECU Visual Media Lab. Kansai.pm #14 KyTea とは 読み方:きゅーてぃー JUMAN ・ ChaSen ・ MeCab より新しい,形態素解 析も可能なテキスト解析器 特徴 簡単に分野適応が可能 読み・発音推定も可能 3 4. OECU Visual Media Lab. Kansai.pm #14 第 8 回 NLP 勉強会にも登場!? 2011 年 11 月 23 日

    PerlでKyTea
  • ツイートデータ

    はじめに 拙作 TTC と TTT を使って収集したツイートデータです。ご自由にお使いください。なお、収集したデータは 検索クエリ,ID,日付,ユーザ名,ツイート からなるCSV形式になっています。 地震関連ツイートデータ 「地震」をクエリーとする469,504ツイート(2011年3月11日15時16分9秒〜2011年3月13日8時59分19秒) http://mtmr.jp/data/earthquake.zip (約38.6MB) 関連データはANPI NLPでも公開されています。 コスモ石油二次災害防止情報関連ツイートデータ 「コスモ石油 OR 有害物質 OR 傘 OR カッパ」をクエリーとする40,711ツイート (2011年3月12日8時01分36秒〜2011年3月16日10時48分19秒)(関大の安田雪先生と一緒に収集) http://mtmr.jp/data/rumor_co

  • twitterまとめ要約システム(自然言語処理) : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 1年前はほとんどありませんでしたよ 文書要約はわたくしの専門なのです。 複数文書要約の意義を説明するシステム説明文 以下を踏まえて実際に要約を実装しました。 Twitter を用いたソーシャルゲーム「ゆけっ!はるひろ!」 戸谷直之 平野砂峰旅 片寄晴弘  関西学院大学 情報処理学会インタラクション2010 ☆ このゲームは著者がポケットモンスターをプレイしているときに 「自分のポケモンのニックネームを知人の名前にして遊ぶと面白い」と気づいたことから着想を得たため,ゲームのタイトルには著者(戸谷)がお世話になっている人

    twitterまとめ要約システム(自然言語処理) : 研究開発
  • 1本目:"Information Credibility on Twitter" - Kshi_Kshi Research Memo

    Information of paper タイトル Information Credibility on Twitter 出典 World Wide Web Conference 2011 著者 Carlos Castillo Marcelo Mendoza Barbara Poblete Slide [WWW Conference 2011]Information Credibility on Twitter View more presentations from Kshi_Kshi ちょっと一言、二言 第一弾はTwitter関連のキャッチーな話です。 効率の悪いやり方と英語力・研究分野への知識の無さが原因で、2週間くらいずっとこの論文の理解に時間を費やしていた気がする。 来週から週1のペースで挙げていきたいものです。継続したい。 ご指摘・ご意見などお待ちしています。 まだ、未熟者なの

    1本目:"Information Credibility on Twitter" - Kshi_Kshi Research Memo
  • Loading...

  • 1