タグ

ブックマーク / d.hatena.ne.jp/nokuno (6)

  • TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記

    Twitterについては先日の記事でフロントエンドBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと

    suginoy
    suginoy 2011/05/04
    「データのフルスキャンが発生するという問題点があります。そこでLuceneの全文検索インデックスを利用することで、必要なデータだけを取り出して解析できるようにする」
  • NHKのラジオ英語番組がすごい - nokunoの日記

    NHKのラジオ英語番組がすごい。2009年から無料でサイト上でのストリーミング配信を行っています。NHK語学番組ストリーミングに対応している番組は以下のようなものがあります。NHK語学番組 | 基礎英語1 |NHK語学番組 | 基礎英語2 |NHK語学番組 | 基礎英語3 |NHK語学番組 | 英語5分間トレーニング |NHK語学番組 | ラジオ英会話 |NHK語学番組 | 入門ビジネス英語 |NHK語学番組 | 実践ビジネス英語 | 検索するといろいろな人がおすすめしていました。NHKラジオ英語講座でTOEICスコアアップ!TOEIC950点突破とその先へ 2011年度NHKラジオ英語講座このサイトのことは知っていたのですが、今までPodcastやradikoのようにiPhoneで聞く手段が分かりませんでした。Twitterで教えてもらったのですが、以下のツールを使うとダウンロードしたm

  • Quoraを支える技術 - nokunoの日記

    勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる:「なぜQuoraはCassandraやMongoDBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか?」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • nokunoの日記

    nokuno Software Engineer at a Web Company. Interested in Natural Language Processing, Machine Learning, and Data Mining. Skillful in C/C++, Python, and Hadoop.

    suginoy
    suginoy 2010/10/27
    「四半期ごとに目標を決める制度はすべてを引き伸ばす文化を促進します。困難な目標に挑戦する代わりに、人々は保守的な手段を取る方向に最適化されていきます。」
  • 「言語処理のための機械学習入門」を参考に各種モデルに対するEMアルゴリズムを実装したよ - nokunoの日記

    Amazonにもレビューを書いたのですが、高村さんの「言語処理のための機械学習入門」を読みました。実はこのを読むのは2回目で、1回目はドラフト版のレビューをさせていただく機会があったのですが、そのときは「言語処理研究者のための機械学習入門」というタイトルで、ちょっと敷居が高いのではないかとコメントしたら「研究者」の部分が削られたという経緯があったりしました。 それはともかくとして、以前読んだときは時間もなくて実装までする暇はなかったのですが、今度はもうちょっとじっくり読みたいなということで、このブログに書いてみようと思います。EMアルゴリズムは教師なし学習を確率モデルと最尤推定でやろうとするときに必ず出てくる手法で、隠れ変数や欠損値を含む色々なモデルに適用できる汎用的なフレームワークになっています。一般的には混合ガウス分布の場合をまず説明して、それがk-means法の一般化した形になって

  • 1