タグ

ブックマーク / d.hatena.ne.jp/nokuno (5)

  • HadoopがJavaではなくC/C++で実装されていたらどう違っていたか? - nokunoの日記

    Quoraでこんな質問を見つけたので適当に翻訳してみました。Would Hadoop be different if it were coded in C/C++ instead of Java? How? - Quora 回答1実際のところ難しいけど、考えてみるのは楽しいね。 実行時間は速くなると思うけど、それが決定的な違いになるかどうかはわからない。 セキュリティやいくつかの機能は実装しやすくなるかもしれない 他のプログラミング言語への対応はしやすくなる。Java/Pipes/Streamingを選ぶ代わりに、コンパイルしてリンクすればいい。 コード量は非常に大きくなる。エラーチェックのためにね。 コードベースが大きくなれば、開発スピードは遅くなる。Hadoopが今のように成長したかどうかわからない。 Pigは登場しただろうか? 私にはそうは思えない。回答2は略 回答3C/C++とJa

    lizy
    lizy 2011/02/04
    回答3は、ソースを送り込んでon-the-flyでコンパイルさせるとか?
  • marisa-trieを使ってみた - nokunoの日記

    id:s-yata さんの新作trieライブラリが公開されていたので使ってみました。環境はMac OS Xです。やた@はてな日記 marisa-trie - Project Hosting on Google Code インストール普通にGoogle Codeからダウンロードしてインストールします。 $ wget http://marisa-trie.googlecode.com/files/marisa-0.0.1.tar.gz $ tar xfz marisa-0.0.1.tar.gz $ cd marisa-0.0.1/ $ ./configure $ make $ sudo make install 動作確認Wikipedia N-gram(nokunoの日記)よりbigramを格納し、marisa-predictによって前方一致検索を行いました。 $ cat bigram.txt

  • Amazon Elastic MapReduceに今さら入門してみた - nokunoの日記

    というわけで冬休み最後の自由研究として、Amazon Elastic MapReduce(EMR)を使ってみました。今なら公式ページもほぼ日語化していて楽チンです。Amazon Web Services (日語) Amazon Elastic MapReduceとはAmazon EMRは、Amazonのインフラ上で動作する仮想サーバーを使ったHadoopクラスタを時間単価で貸し出すサービスです。少々わかりにくいので、Amazon Web Service(AWS)の関連する製品群について整理しておきます。EC2 (Elastic Compute Cloud) EC2は、仮想マシンを時間単価で貸し出すサービスです。 EMRを使わずに、EC2に自前でHadoopをインストールして使うやり方もあります(EMRが出来る以前はそれしかなかった)。 EMRを使う場合でも、バックグラウンドでは自動的に

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • 自然言語処理勉強会@東京 のグループを作りました。 - nokunoの日記

    最近、統計・機械学習・データマイニング関係の勉強会に顔を出しているわけですが、自然言語処理の勉強会がなぜか無かったので作りたいと思い、とりあえずグループを作りました。きっと大学の研究室レベルとか研究会とかがいっぱいあるのだと思いますが、社会人でも週末で気軽に参加できるオープンな勉強会、という点では意義があるのではないかと思います。 自然言語処理勉強会@東京 | Google グループ まだ何もありませんが、興味がありましたらご参加ください。自然言語処理(Natural Language Processing; NLP)に関する勉強会です。自然言語処理について、理論と実践の両面について深く学び、発表と議論を通じて共有していくことを目的としています。 概要 主に東京で週末に開催されます。 発表者と会場提供を募集しています。 神経なんとかとの誤爆を避けるため、英名はtokyotextmining

  • 1