shimookaのブックマーク / 2015年2月17日

InfluxDBを用いたリアルタイム時系列データ通達システムの開発 | 株式会社サイバーエージェント

業務経歴： 2013年株式会社サイバーエージェント新卒入社。入社よりサービス向けのストリーミングプロセッシングシステムの改修・保守に従事。現在はリアルタイムログ収集基盤の開発・運用を担当。概要ビッグデータが叫ばれている昨今、Webアプリケーションのログから得られた情報を用いてユーザの行動の解析を行う事で知見を得ようとする試みが多くなされている。また時々刻々と流れるデータに対して従来のバッチ処理だけではなく、ストリーミング処理の需要が高まっている。ログデータをリアルタイムに転送するソフトウェアとしてApach Flumeがあり、また時系列データベースとしてInflux DBが注目を集めている。今回、Apache Flumeを用いてInflux DBにログデータをリアルタイムに流すモジュールを開発し容易に時系列データを保存することを可能にした。またZookeeperを用いてデータ

shimooka 2015/02/17

influxdb

リンク

InfluxDB をちょっとさわってみた - （ひ）メモ

Influx DBとは http://influx db.org メトリクスやイベントといった時系列データを格納するのに適したデータストアです。ちなみに go で書かれています。ちなみに 2013のOpen Source Rookiesに選ばれました。 Influx DBの特徴 RRDやMySQLに時系列データを格納する場合と比較して、Influx DBの特徴を紹介します。バックエンドは LevelDB LevelDBとは、キーでソートされた状態で可能されたKVSです（Google製）。詳しくはこのへん参照のこと。 http://en.wikipedia.org/wiki/LevelDB https://code.google.com/p/leveldb/ https://speakerdeck.com/smly/influx db-and-leveldb-inside-out 将来的にLev

shimooka 2015/02/17

influxdb

リンク

天下一InfluxDB勉強会開催してきました | GREE Engineering

こんにちは。ちょびえです。先日6/27(金)にDeNAさん会場にて天下一Influx DB勉強会を開催してきました。当日はあいにくの悪天候ながら参加いただき有難うございました。また、会場を快く提供していただきましたDeNAさんに感謝申し上げます。天下一Influx DB勉強会イベントページきっかけはanatooのtweetにより始まりました天下一influx db勉強会の開催が待たれる — anatoo (@anatoo) May 29, 2014 もともとanatooとはPHPつながりで闇PHP勉強会など企画して頂いて参加させていただいていたのですが、今回は二人共Influx DBに興味があるよね！ってことでInflux DBの勉強会を企画・開催してきました。本記事では天下一Influx DB勉強会のレポートまとめ、という事で資料＋動画を簡単にまとめておこうかと思います。@sonotsさん

shimooka 2015/02/17

リンク

WEBSITE.WS - Your Internet Address For Life™

<p> Your browser does not support frames. Continue to <a href="https://www.website.ws/wc_landing.dhtml?domain=node.ws">https://www.website.ws/wc_landing.dhtml?domain=node.ws</a>.</p>

shimooka 2015/02/17

Data Driven DocumentでD3らしい。。。

リンク

Impala Cookbook （非公式）日本語版 (2)　メモリ使用量

昨日のImpala Cookbookの非公式日本語版の続きです。昨日は「Impalaの物理設計とスキーマ設計」でした。本日は「Impalaのメモリ使用量」です。例によって駆け足で日本語化してるので、間違いがあればコメントに書き込むかTwitterでメンションしてください。原文: [1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186 メモリ使用量 – 基本メモリ以下により使用される Hash Join – 復元(decompression)、フィルタリング、射影 (projection)後のRHSテーブル Group by – グループ数に比例 Parquetの書き込みバッファ – パーティションごとに1GB IOバッファ (クエリに渡って共有される）メタデータの

shimooka 2015/02/17

リンク

Impala Cookbook （非公式）日本語版 (1)　物理設計とスキーマ設計

The Impala Cookbook 概要 Part 1 – 基本物理設計とスキーマ設計 Impalaでのメモリ使用量 Part 2 – 実用上の問題クラスタのサイジングと推奨ハードウェア Impalaでのベンチマークマルチテナントのベストプラクティスクエリのチューニングの基本 Part 3 – Impalaの外部 Apache Hive, Apache Sentry, Apache Parquetとのやり取り物理設計とスキーマ設計 – 概要スキーマ設計のベストプラクティスデータ型パーティション設計一般的な質問物理設計ファイルフォーマット: いつ何を使うかブロックサイズ（オプション）物理設計とスキーマ設計 – データ型数値(Numeric)型を使用する（Stringではなく）可能であればString型を避ける String => 多くのメモリ消費、多くのディ

shimooka 2015/02/17

リンク

Hadoop を 10 分で試そうとしたら 2 時間 49 分かかった話 - garbagetown

みなさんビッグデータしてますか？本日は懺悔のブログです。経緯世間から遅れること五年、そろそろぼくもビッグデータしたいなと思って Hadoop 周りを調べてみたところ、エコシステムがもりもり成長中で Web 上の情報は新旧入り乱れているわ、書籍の情報はあっという間に古くなるわで、ビッグデータ界の Hello World 的な WordCount を試すのもひと苦労という有様でした。そんな折、"2014年版 Hadoopを10分で試す(1) | Tech Blog" というブログを発見してキタコレ！と試してみたところ、いろいろあって結果的に 10 分では試せなかったので、冗談半分で Hadoopを10分で試すというブログを参考にVMをダウンロードしたら残り2時間49分と表示されたときの顔をしてる— 箱と矢印と方眼紙 (@garbagetown) 2015, 2月 3 などとツイートした

shimooka 2015/02/17

cdh
neta

リンク

2014年版 Hadoopを10分で試す(4) まずはHiveから（中編）

メタストアの役割まず、Hadoopはデータベースではありません。HiveはHadoop（Hadoop分散ファイルシステム）にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入（サブミット）するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。このとき、MapReduceとして処理するために用いられるのがメタストアです。昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。先ほど書いたように、Hiveで処理す

shimooka 2015/02/17

リンク

2014年版 Hadoopを10分で試す(3) まずはHiveから（前編）

Hadoop関連（全部俺） Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS（Hadoop分散ファイルシステム）とMapReduce（分散処理）ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい（めざせ！hadoopエンジニア（開発者編）、Hadoopを40分で理解する） Hiveとはです。愛くるしい（笑）。見れば見るほど愛着がわいてきます（笑）。なお、こんな非売品＆限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp

shimooka 2015/02/17

リンク

2014年版 Hadoopを10分で試す(1)

Hadoop関連（全部俺） Advent Calendar 2014:7日目先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか？」という質問がありました。構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門：Hadoopを10分で理解する」シリーズで紹介したCloudera Managerであり、Clou

shimooka 2015/02/17

リンク

Cloudera ImpalaとCatalog Serviceの話

Impalaのメタデータ ImpalaはHiveと共通のメタストアを使用しています。従来、メタデータが変更された場合には、Impalaで”invalidate metadata/refresh”コマンドを使用して変更を認識する必要がありました。Impala 1.2.Xから管理方法が変更となり、メタデータの変更を管理するサービス、Catalog Serviceが登場しています。 Catalog Serviceはメタデータの管理を行う中央型のサービスです。Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します。このサービスにより、Impalaによって行われたメタデータの変更は”invalidate metadata”コマンドを実行することなく、全てのノードで自動的に認識され

shimooka 2015/02/17

『Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します』

impala

リンク

Cloudera Impalaのアーキテクチャ

（本ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています）一人アドベントカレンダー２５日目、最終日です。最終日はCloudera Impala（以下Impala）について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ（Impala v Hive）に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日本語の記事もいずれ読めるようになるはず。。。さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです

shimooka 2015/02/17

アーキテクチャからSQL/JOINまでの入門

リンク

Hadoop関連（全部俺） Advent Calendar 2014 - Adventar

Hadoop、Hadoopエコシステム、Impala、Hue、HBase、Sparkなど、Hadoopに関連するアドベントカレンダーです。（今年は例年より忙しいので、どこまで続くか不安） -> 2014.12.25 無事完走しました (^o^)/（が、十分時間が取れず、内容が薄くてすみません） 2013年のアドベントカレンダー: http://www.adventar.org/calendars/310 Tech Blog: http://linux.wwing.net/WordPress/

shimooka 2015/02/17

あとで読む

リンク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)

shimooka 2015/02/17

40分もかからないけど、ざっと概要を掴める

リンク

【中毒性注意】鶏胸肉が美味しくてはかどる禁断の廃人飯レシピ - ぐるなびみんなのごはん

毎回、簡単にできて、そのうえで美味しくて病みつきになってしまうレシピを御紹介している中毒性注意シリーズ、今回は鶏胸肉を使ったレシピを御紹介します。食卓の力強い味方である鶏胸肉、安価にもかかわらずヘルシーで、鶏の旨みも十分に味わえるということで、普段よく使っている方も多いと思います。今回はそんな鶏胸肉を使った一風変わったレシピを御紹介します。どれも簡単にできるものばかりです。ご飯のお供に、ちょっとしたおつまみに、子供のおかずに、いろんな使い方があると思います。ぜひ試してみてください。 1. しっとりぶるぶる鶏胸肉のお刺身材料　１人分鶏胸肉　　　　1枚（150g）料理酒　　　　大さじ1 塩　　　　　　小さじ1 片栗粉　　　　大さじ1 大根おろし　　　適量ポン酢　　　　　適量レモン（飾り）　輪切り1枚作り方鶏胸肉は縦半分に切り、薄くそぎ切りにし、フォークで数カ所穴を空けてボウル

shimooka 2015/02/17

チーズを挟むのは良いかも

リンク

http://blog.yoslab.com/entry/2014/02/15/011402

shimooka 2015/02/17

リンク

【閲覧注意】親の金でレクサス乗ってた奴の末路ｗｗｗｗｗｗｗｗｗｗ : キニ速

shimooka 2015/02/17

はよ成仏しろ

2ch
neta

リンク

ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは（MapReduceの様な）バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上（正確には2136人）の開発者からの回答が得られた。そこから以下三点の結

shimooka 2015/02/17

リンク

はてなブックマーク

タグ

2015年2月17日のブックマーク (18件)

InfluxDBを用いたリアルタイム時系列データ通達システムの開発 | 株式会社サイバーエージェント

InfluxDB をちょっとさわってみた - （ひ）メモ

天下一InfluxDB勉強会開催してきました | GREE Engineering

WEBSITE.WS - Your Internet Address For Life™

Impala Cookbook （非公式）日本語版 (2)　メモリ使用量

Impala Cookbook （非公式）日本語版 (1)　物理設計とスキーマ設計

Hadoop を 10 分で試そうとしたら 2 時間 49 分かかった話 - garbagetown

2014年版 Hadoopを10分で試す(4) まずはHiveから（中編）

2014年版 Hadoopを10分で試す(3) まずはHiveから（前編）

2014年版 Hadoopを10分で試す(1)

Cloudera ImpalaとCatalog Serviceの話

Cloudera Impalaのアーキテクチャ

Hadoop関連（全部俺） Advent Calendar 2014 - Adventar

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

【中毒性注意】鶏胸肉が美味しくてはかどる禁断の廃人飯レシピ - ぐるなびみんなのごはん

http://blog.yoslab.com/entry/2014/02/15/011402

【閲覧注意】親の金でレクサス乗ってた奴の末路ｗｗｗｗｗｗｗｗｗｗ : キニ速

ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス