タグ

ブックマーク / walrus.vox.com (2)

  • クラウド×Wikipedia研究を始めよう - Vox

    slideshareに「Elastic MapReduceでお手軽Wikipediaマイニング」というスライドがあがっていることを、社内SNSで教えてもらった(OKIの社内SNSもなかなか侮れない)。ohkura.comの大倉さんという方が公開されたものらしい。 ■ 分散処理×クラウド≒Amazon MapReduce MapReduceはGoogleが開発した分散処理アルゴリズムで、オープンソースによるJava実装にHadoopがある。このアルゴリズムをうまく使うと、大量の処理を細かく分割して多数のマシンで並列処理し、短時間で終わらせることができる。 例えば、40万5千件ずつのTiffファイルおよびXMLファイルを100台のマシンで並列処理し、36時間で81万件のPNGファイルに変換したNew York Timesの例のようにだ。しかしそうはいっても、彼らは100台ものマシンをどこからか

  • Wikimedia Conference Japan 2009 - Vox

    昨日の「知の構造化センターシンポジウム」で楽しくなってしまって、今日のWikimedia Conference Japan 2009も行って来ました。ただ、朝は起きられなかったので、午後から。twitterの#wcj2009_Hに@argさんという方が投げている内容や、@mhatta氏のつぶやきを見ていると午前中の「辞書・事典とは何か」は必聴モノだったようで、そこはじわじわと後悔中。 テキスト解析好きなので、ずっと技術セッション=第21回セマンティックウェブとオントロジー研究会を聞... Read and post comments | Send to a friend

    karpa
    karpa 2009/11/23
    c山﨑氏Q&A,たしかに気になる > Q:IPユーザは同一人物とは限らないが、それがノイズにならないか? A:そこは懸念点、何かいい方法はないか?  ※逆にIPユーザが個人なのかグループなのか、などの分析ができそう?
  • 1