タグ

ブックマーク / d.hatena.ne.jp/nokuno (9)

  • Hadoopを使ってサンプリングを行なうには - nokunoの日記

    TokyoWebminingのustを見ていて、doryokujinさんのMapReduce入門編の資料がわかりやすくてよかったです。Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜 View more presentations from Takahiro InoueMapReduceのアルゴリズムデザインに関しては、8月〜9月に邦訳も出るというMapReduceを読んでいれば似た部分はわかりやすいと思います。MapReduce、とくにHadoopを使った場合のランダムサンプリングはどうやるのかなあ、というのが気になったのでちょっと考えてみました。 選択肢1:全データをシーケンシャルに読み込むdoryokujinさんの資料で説明されていた方法。Mapperで全データをシーケンシャルに読み込んでいき、[0,1]の乱数を返すrandom()関数が0.1以下ならば採用、と

  • mixi Engineers' Seminar #3 に参加しました #mixi_engineers - nokunoの日記

    mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也 自己紹介 東工大のすずかけ台キャンパスにいます! 「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析 著書:Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 概要 コンテンツを入手→前処理→分類器→出力 前処理:形態素解析→品詞フィルタ,ストップワード削除 「すずかけ台には良い教授がたくさんいる」→すずかけ台 良い 教授 たくさん 分類器 ポジティブかネガティブか ナイーブベイズ分類器 確率的生成モデル 140文字制限は無視 ツイートの長さを決める(単語数) ポジティブかネガティブか決める 単語を選ぶ作業を長さ分だけ繰り返す P(ツイート,ポジ) > P(ツイート,ネガ) ならポジティブ,逆ならネガティブ

  • 第3回MongoDB勉強会に参加しました #mongotokyo - nokunoの日記

    というわけで、@doryokujinさん主催の第3回MongoDB勉強会に参加してきました。「第3回 MongoDB 勉強会 in Tokyo」 : ATNDMongoDBMongoDBを使ってみたメモ - nokunoの日記 Twitter StreamingのデータをMongoDBに突っ込む - nokunoの日記会場はフューチャーアーキテクトさん。来客スペースが緑に溢れすぎていてびびったw フューチャーには1つ上の研究室の先輩が就職していますが、さすがに休日ということもあり見かけませんでした。 MongoDB全機能解説1 by @doryokujinさんMongoDB全機能解説1 View more presentations from Takahiro InoueMongoDBのチュートリアル的な話。第1回で初めてインストールした程度の経験な私にはありがたい。発表者かつ主催者の@d

  • 第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining - nokunoの日記

    というわけで参加してきました。会場は数理システムさんです。第3回 さくさくテキストマイニング勉強会 : ATND 入門セッション(AntiBayesian)第三回さくさくテキストマイニング勉強会 入門セッション View more presentations from AntiBayesian 単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch ) TF*IDFの話 えっ私のテキストマイニング力低すぎ!? 例:大量のアンケートの自由回答文から重要な単語を抜き出す 例:エビオス嬢についての文章 TF*IDFとは TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数)) 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している なんで対数取るんだっけ・・・ IDFの影響が大きすぎるので小さくしたい→対数

  • 第5回自然言語処理勉強会を開催します! #TokyoNLP - nokunoの日記

    というわけで、第5回自然言語処理勉強会を開催します!第5回 自然言語処理勉強会 #TokyoNLP : ATND参加登録は上記ATNDからお願いします。 概要自然言語処理(Natural Language Processing, NLP)に関する勉強会です。理論と実践の両面から深く学び、発表と議論を通じて共有していくことを目的としています。 発表内容第5回の発表内容です。今回もいつも通り濃い内容となっております。気合を入れて勉強しましょう! 発表者 発表タイトル @machyさん n-gramを小さくする話を調べてみた @tsubosakaさん Infer.NETを使ってLDAを実装してみた @sleepy_yoshiさん パーセプトロンで楽しい仲間がぽぽぽぽーん @shuyoさん はじめての生成文法@nokuno スペル訂正エンジンについてのサーベイ 参加条件連絡のため、Googleグル

    mainyaa
    mainyaa 2011/04/19
  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

    mainyaa
    mainyaa 2010/10/27
  • はてなダイアリー

    Yoh Okunoの日記 この日記は、プライベートモードに設定されています。 ログインページへ お知らせ はてなブックマークのアプリは毎週アップデート! 今すぐダウンロード ログイン Yoh Okunoの日記 ブログトップへ 記事一覧 このブログについて 関連メニュー はてなダイアリートップへ はてなでブログを始める(無料) 話題のキーワードを見る 人気の記事を見る © Hatena PCPC

    mainyaa
    mainyaa 2010/10/27
  • Google N-gram V.S. Baidu N-gram 〜ケータイウェブは本当にエロいのか?〜 - nokunoの日記

    近年検索エンジンのBaiduは不自然言語処理コンテストなるものを開催し、今日が締切のはずだったのだが24時間延長されたらしいことを聞いてBaiduコーパスをダウンロードしたid:nokunoは仕事帰りの電車で思いついたアイデアを30分ほどで実装してみたところそれなりに面白い結果がでたので応募してみることにした。そもそもBaiduのコーパスはエロいというのを最初に誰かが言ったら@mhagiwaraさんがこんなツイートをしたことに話は遡る。インターネットがエロいのは誰でも知っている。けれど、ケータイウェブが特別にエロいのか? については寡聞にして知らなかったため、検証してみることにした。今回はケータイウェブがエロいかどうかを検証するため、以下のコーパス(N-gramデータ)を相互に比較することとした。Baidu N-gram(Baidu絵文字入りモバイルウェブコーパス) 今回のメインターゲット

    mainyaa
    mainyaa 2010/07/21
  • 1