タグ

2012年12月26日のブックマーク (3件)

  • The dark side of Hadoop | gihyo.jp

    ツイートやブログコメントの解析プラットフォーム企業である「BackType」の技術ブログ記事です。BackTypeでは30TBものソーシャルデータをHadoopで処理しています。また、Hadoopを利用したプロダクトをいくつか開発しオープンソースにして公開しており、Hadoopをヘビーに活用している企業の一つと言えるでしょう。しかし、深く利用しているがゆえに不満点も多いようで、Hadoopに関する問題点のいくつかを挙げています。 まず、非常に重要な設定について、何もドキュメント化されていないことを指摘しています。具体的には、HFDSのDataNodeへの上限接続数を表す設定項目「dfs.datanode.max.xcievers」について、デフォルト値が256と非常に低く設定されているため、すぐにエラーが発生しています。しかし、公式ドキュメントには、いったい何の設定を表すのかや、どのような

    The dark side of Hadoop | gihyo.jp
    chezou
    chezou 2012/12/26
    大量のデータを使うには、dfs.datanode.max.xcieversを上げる必要がある
  • ツイートID生成とツイッターリアルタイム検索システムの話

    2019/01 JSUG勉強会の資料です。 この資料でDisっているのはJPAではなく、 ・何も考えずに「標準だから」というだけでJPAを選ぶ人 ・OSSに全くコントリビュートせずにフリーライドする人 です。

    ツイートID生成とツイッターリアルタイム検索システムの話
  • 機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

    岡野原です。 情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。 今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。 以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

    機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development