[B! Hadoop] kazuph1986のブックマーク

kazuph1986 id:kazuph1986

Hadoopに関するkazuph1986のブックマーク (9)

データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか　 - ネガティブにデータサイエンティストでもないブログ
※コラ画像削除しましたビッグデータ、データサイエンティスト、そろそろ過渡期ブームも終わりつつあるように見えてきたのは結構なことです。なので私はデータベース・トンガリストに鞍替えします。嘘です。行けませんでしたがマニアックなDB話を聞きたかったです。どっちにしても普通に粛々とやるしかないんすから騒いでも絶望しても仕方ないんですよ。実務してない奴ほど騒ぐもの。（←非常に見識の狭いダメ発言）日頃、扱っているデータ。それビッグデータでしょ、と言われるだけで、やる気がなくなる昨今。スモールデータでもいい（←それこそが重要ですよね）と思うし、何度も繰り返される、「いままで1ヶ月かかってたデータを1日にしました」とか言う話も、ビッグデータと関係ないんじゃないの、単に多段承認フローというかステークホルダー減らしただけではと思ったりしますよね。逆にそっちのほうがすごいと思うんだけども。で、ビッグデー
kazuph1986 2013/11/17
ラベリングの話は全部置いておいて、言ってることは確かにって思った。

Hadoop

java

仕事

ニュース
リンク
バッドデータハンドブック
TOPICS Data Science , Database 発行年月日 2013年09月 PRINT LENGTH 310 ISBN 978-4-87311-640-2 原書 Bad Data Handbook FORMAT PDF 値の欠落、形式から外れたレコード、エンコーディング形式が不明な文字列。「バッドデータ」と聞いた時に思い浮べる典型例です。しかし、これら以外にも「そもそもデータにアクセスできない」「消えてしまった」「昨日と違っている」「データはあるが形式が処理に適していない」など、データを収集・分析するエンジニアは、これらの「バッドデータ」と正面から向きあわなければならないことが多々あります。本書では、これらの問題のあるデータのパターンを紹介し、その対処法を解説しています。 19人のデータ分析の専門家が、自らの経験を通して得た、さまざまな教訓、実践的な方法論等を詳述した本書は
kazuph1986 2013/09/26
ビッグデータの次はバッドデータ・・・。

o'reilly

Hadoop

book

books

プログラミング
リンク
Presentation at 'Fluentd Meetup in Japan'
Presentation at ’Fluentd Meetup in Japan’ — Presentation Transcript ﬂuentd@just_do_neet 1 ﬂuentd - The Event Collector Service•‘ﬂuentd’ product made by a Japanese famous hacker ‘Sadayuki FURUHASHI‘ (Treasure Data Inc. ) http://www.scribd.com/doc/70897187/ Fluent-event-collector-update (English) http://blog.treasure-data.com/post/ 13047440992/ﬂuentd-the-missing-log- collector (English) http://d.hat
kazuph1986 2013/02/15
analysis

log

Hadoop

presentation

fluentd

mongodb

fluent
リンク
Fluentdの所感その１ | 外道父の匠
Agent ログの量やFluentd＆CPUの性能を考えると、負荷的には１サーバ１Agentで十分足りるので、ステータス検知などの監視だけしっかりしておけばOKと考えます。なので例えばWEBサーバに普通に１Agent入れてそれが数百・数千台になることを想定します。 Collector 複数台用意し、Agentからroundrobinで送信することで均一化します。Collectorダウン時や復旧時は、ログのロスト無しにすみやかにroundrobinから外れたり復活することを確認済みです。台数が増えすぎた時の懸念点は、HDFSに対する１ファイルへのAPPEND数が増えることですが、ここまでの試験を見る限りはおそらくかなりの数まで大丈夫ですし、仮にHDFSへの書き込みが問題になる場合はAgent -> Collectorの選択条件や、書き込みファイルパスで工夫すれば大丈夫です。とはいえ、APP
kazuph1986 2013/02/15
fluentd

Hadoop

apache

fluent

ログ

サーバ

あとで読む
リンク
クックパッド株式会社を卒業します - (ﾟ∀ﾟ)o彡 sasata299's blog
2013年01月31日18:37 その他クックパッド株式会社を卒業します私事ですが、このたびクックパッド株式会社を退職することになりました。有給消化の関係でまだしばらく所属はしていますが、本日1/31が最終出社日です。2009年の8月に入社したので、約3年半お世話になったことになります。ついこの間JOINした気がするのに早いものですね。短い間でしたが、クックパッドの素晴らしい環境と素晴らしい仲間に恵まれて本当に幸運でした。美味しいご飯も食べられるし。僕の人生の中で、クックパッドにJOINすることに決めたのはかなり上位に食い込む素晴らしい決断だったと思います！やってきたことせっかくなので振り返ってみます。クックパッドでは以下のようなことをやってきました。・HadoopやEMRを利用した大規模データ分析・クックパッドという巨大なサイトへの機能追加、改善・新規事業へのチャレンジ
kazuph1986 2013/01/31
お疲れ様でした！この本前から読みたかったから買おう。

join

転職

退職

Hadoop

engineer

Employment

sasata299
リンク
OSSで支えられるライブドアの巨大ログ集計 #nhntech
PostgreSQL10を導入！大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
kazuph1986 2012/08/19
猫かわいい(*´Д｀)→久しぶりに読んだからいい話だった。特にデプロイ容易性まわり。

fluentd

oss

Hadoop

Server

slideshare
リンク
技術革新は何のためにあるのか？ - 急がば回れ、選ぶなら近道
技術革新は須く斬新的なものであるべし、という肩に力の入った信念の人は流してください。ちょっと、力の抜いた小ネタなので。最近というかここ10年来、いわゆる業務系のシステムに関わっていてよく思うことではあります。特に最近、NoSQLやHadoopといった「新技術」が登場するにつけて強く感ることではあるのですが、なんというか、「こんな感じ」のことができます、というようなプロダクトアウト的でありながら、かつ、漠然とした抽象的な話が多すぎる気がします。要は、全般的に問題の設定が苦手だよなということです。特定の技術の各論はともかく、まず、大上段に構えると、実はITでは一般の人が想像する以上にユーザーとベンダーで期待ギャップがあります。ユーザーから見ると、大抵は「こんなこともできないのか？」ということがごく普通にできません。一方、一般のTVとか報道とかは、スパコンや遺伝子やビッグデータや、なんやらか
kazuph1986 2012/07/23
ちょい考察必要。

Hadoop
リンク
“統計の基礎を無視している”Hadoop使いが考えるビッグデータ
Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長神林飛志氏に、その真意を聞いた。 Hadoop＝ビッグデータは大きな誤解ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」（神林氏）という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ
kazuph1986 2012/05/10
「統計をやっている人がビッグデータに関して沈黙しているのはデータを全部分析した方が正確なのを理解しているから。そこは確かに弱点だが裏ではビッグデータなんてなくても既存の統計で十分と思っているはず」

Hadoop
リンク
そろそろHadoopについてひとこと言っておくか - nokunoの日記
もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存
kazuph1986 2011/01/05
短いけど分かりやすかった。

Hadoop

プログラム

Facebook

あとで読む

プログラミング

開発
リンク
1