タグ

Hadoopに関するkazuph1986のブックマーク (9)

  • データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか  - ネガティブにデータサイエンティストでもないブログ

    ※コラ画像削除しました ビッグデータ、データサイエンティスト、そろそろ過渡期ブームも終わりつつあるように見えてきたのは結構なことです。なので私はデータベース・トンガリストに鞍替えします。嘘です。行けませんでしたがマニアックなDB話を聞きたかったです。 どっちにしても普通に粛々とやるしかないんすから騒いでも絶望しても仕方ないんですよ。実務してない奴ほど騒ぐもの。(←非常に見識の狭いダメ発言) 日頃、扱っているデータ。それビッグデータでしょ、と言われるだけで、やる気がなくなる昨今。スモールデータでもいい(←それこそが重要ですよね)と思うし、何度も繰り返される、「いままで1ヶ月かかってたデータを1日にしました」とか言う話も、ビッグデータと関係ないんじゃないの、単に多段承認フローというかステークホルダー減らしただけではと思ったりしますよね。逆にそっちのほうがすごいと思うんだけども。 で、ビッグデー

    データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか  - ネガティブにデータサイエンティストでもないブログ
    kazuph1986
    kazuph1986 2013/11/17
    ラベリングの話は全部置いておいて、言ってることは確かにって思った。
  • バッドデータハンドブック

    TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した書は

    バッドデータハンドブック
    kazuph1986
    kazuph1986 2013/09/26
    ビッグデータの次はバッドデータ・・・。
  • Presentation at 'Fluentd Meetup in Japan'

    Presentation at ’Fluentd Meetup in Japan’ — Presentation Transcript fluentd@just_do_neet 1 fluentd - The Event Collector Service•‘fluentd’ product made by a Japanese famous hacker ‘Sadayuki FURUHASHI‘ (Treasure Data Inc. ) http://www.scribd.com/doc/70897187/ Fluent-event-collector-update (English) http://blog.treasure-data.com/post/ 13047440992/fluentd-the-missing-log- collector (English) http://d.hat

  • Fluentdの所感 その1 | 外道父の匠

    Agent ログの量やFluentd&CPUの性能を考えると、負荷的には1サーバ1Agentで十分足りるので、ステータス検知などの監視だけしっかりしておけばOKと考えます。なので例えばWEBサーバに普通に1Agent入れてそれが数百・数千台になることを想定します。 Collector 複数台用意し、Agentからroundrobinで送信することで均一化します。Collectorダウン時や復旧時は、ログのロスト無しにすみやかにroundrobinから外れたり復活することを確認済みです。台数が増えすぎた時の懸念点は、HDFSに対する1ファイルへのAPPEND数が増えることですが、ここまでの試験を見る限りはおそらくかなりの数まで大丈夫ですし、仮にHDFSへの書き込みが問題になる場合はAgent -> Collectorの選択条件や、書き込みファイルパスで工夫すれば大丈夫です。 とはいえ、APP

    Fluentdの所感 その1 | 外道父の匠
  • クックパッド株式会社を卒業します - (゚∀゚)o彡 sasata299's blog

    2013年01月31日18:37 その他 クックパッド株式会社を卒業します 私事ですが、このたびクックパッド株式会社を退職することになりました。 有給消化の関係でまだしばらく所属はしていますが、日1/31が最終出社日です。2009年の8月に入社したので、約3年半お世話になったことになります。ついこの間JOINした気がするのに早いものですね。 短い間でしたが、クックパッドの素晴らしい環境と素晴らしい仲間に恵まれて当に幸運でした。美味しいご飯もべられるし。僕の人生の中で、クックパッドJOINすることに決めたのはかなり上位にい込む素晴らしい決断だったと思います! やってきたこと せっかくなので振り返ってみます。クックパッドでは以下のようなことをやってきました。 ・HadoopやEMRを利用した大規模データ分析クックパッドという巨大なサイトへの機能追加、改善 ・新規事業へのチャレンジ

    kazuph1986
    kazuph1986 2013/01/31
    お疲れ様でした!この本前から読みたかったから買おう。
  • OSSで支えられるライブドアの巨大ログ集計 #nhntech

    PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services

    OSSで支えられるライブドアの巨大ログ集計 #nhntech
    kazuph1986
    kazuph1986 2012/08/19
    猫かわいい(*´Д`)→久しぶりに読んだからいい話だった。特にデプロイ容易性まわり。
  • 技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道

    技術革新は須く斬新的なものであるべし、という肩に力の入った信念の人は流してください。ちょっと、力の抜いた小ネタなので。 最近というかここ10年来、いわゆる業務系のシステムに関わっていてよく思うことではあります。特に最近、NoSQLやHadoopといった「新技術」が登場するにつけて強く感ることではあるのですが、なんというか、「こんな感じ」のことができます、というようなプロダクトアウト的でありながら、かつ、漠然とした抽象的な話が多すぎる気がします。要は、全般的に問題の設定が苦手だよなということです。 特定の技術の各論はともかく、まず、大上段に構えると、実はITでは一般の人が想像する以上にユーザーとベンダーで期待ギャップがあります。ユーザーから見ると、大抵は「こんなこともできないのか?」ということがごく普通にできません。一方、一般のTVとか報道とかは、スパコンや遺伝子やビッグデータや、なんやらか

    技術革新は何のためにあるのか? - 急がば回れ、選ぶなら近道
    kazuph1986
    kazuph1986 2012/07/23
    ちょい考察必要。
  • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

    Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

    “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
    kazuph1986
    kazuph1986 2012/05/10
    「統計をやっている人がビッグデータに関して沈黙しているのはデータを全部分析した方が正確なのを理解しているから。そこは確かに弱点だが裏ではビッグデータなんてなくても既存の統計で十分と思っているはず」
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • 1