2. @kimutansk 自己紹介 •Kimura, Sotaro(@kimutansk) – ドワンゴでデータエンジニアやってます •データ分析基盤の管理 •データ分析に必要な各種ETLパイプライン構築 •生データを集計したデータマートの設計構築 •データフォーマット、内容等の設計 etc... – 好きな技術分野 •ストリーム処理(主にJVM上) •分散システム •実装言語:Scala, Go – 好きなOSSプロダクト •Apache Kafka •Apache Beam •Apache NiFi etc... 3. @kimutansk アジェンダ •ストリーム処理とは何か? •ストリーム処理システム構成の変遷 – バッチと並列でデータ処理を実行 – 単体でデータ処理を実行 – データ処理パイプラインとして抽象化し、実行 •最近語られているストリーム処理の概念 – バッチ処理とス
http://highscalability.com/blog/2014/3/24/big-small-hot-or-cold-examples-of-robust-data-pipelines-from.html 1 comment | 1 point | by WazanovaNews ■ comment by Jshiike | 約1時間前 Hakka LabsのFounderのPete Soderlingが、「何でもBig Dataと称する風潮は行き過ぎだが、処理すべきデータが増えてきているのは確か。」として、データ処理プロセスでの各社の取り組みを紹介しています。 Stripe HDFSには、JSONやBSONなど多様なフォーマットのデータを送っている。Thriftとでロジカルな構造を定義し、Parquetでディスクに保存するフォーマットを決めている。複雑なバッチ処理のツールとし
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く