タグ

2015年2月17日のブックマーク (18件)

  • InfluxDBを用いたリアルタイム時系列データ通達システムの開発 | 株式会社サイバーエージェント

    業務経歴: 2013年株式会社サイバーエージェント新卒入社。入社よりサービス向けのストリーミングプロセッシングシステムの改修・保守に従事。現在はリアルタイムログ収集基盤の開発・運用を担当。 概要 ビッグデータが叫ばれている昨今、Webアプリケーションのログから得られた情報を用いてユーザの行動の解析を行う事で知見を得ようとする試みが多くなされている。 また時々刻々と流れるデータに対して従来のバッチ処理だけではなく、ストリーミング処理の需要が高まっている。 ログデータをリアルタイムに転送するソフトウェアとしてApach Flumeがあり、また時系列データベースとしてInfluxDBが注目を集めている。 今回、Apache Flumeを用いてInfluxDBにログデータをリアルタイムに流すモジュールを開発し容易に時系列データを保存することを可能にした。  またZookeeperを用いてデータ

  • InfluxDB をちょっとさわってみた - (ひ)メモ

    InfluxDBとは http://influxdb.org メトリクスやイベントといった時系列データを格納するのに適したデータストアです。 ちなみに go で書かれています。 ちなみに 2013のOpen Source Rookiesに選ばれました。 InfluxDBの特徴 RRDやMySQLに時系列データを格納する場合と比較して、InfluxDBの特徴を紹介します。 バックエンドは LevelDB LevelDBとは、キーでソートされた状態で可能されたKVSです(Google製)。詳しくはこのへん参照のこと。 http://en.wikipedia.org/wiki/LevelDB https://code.google.com/p/leveldb/ https://speakerdeck.com/smly/influxdb-and-leveldb-inside-out 将来的にLev

    InfluxDB をちょっとさわってみた - (ひ)メモ
  • 天下一InfluxDB勉強会開催してきました | GREE Engineering

    こんにちは。ちょびえです。先日6/27(金)にDeNAさん会場にて天下一InfluxDB勉強会を開催してきました。当日はあいにくの悪天候ながら参加いただき有難うございました。また、会場を快く提供していただきましたDeNAさんに感謝申し上げます。 天下一InfluxDB勉強会 イベントページ きっかけはanatooのtweetにより始まりました 天下一influxdb勉強会の開催が待たれる — anatoo (@anatoo) May 29, 2014 もともとanatooとはPHPつながりで闇PHP勉強会など企画して頂いて参加させていただいていたのですが、今回は二人共InfluxDBに興味があるよね!ってことでInfluxDBの勉強会を企画・開催してきました。 記事では天下一InfluxDB勉強会のレポートまとめ、という事で資料+動画を簡単にまとめておこうかと思います。@sonotsさん

    天下一InfluxDB勉強会開催してきました | GREE Engineering
  • WEBSITE.WS - Your Internet Address For Life™

    <p> Your browser does not support frames. Continue to <a href="https://www.website.ws/wc_landing.dhtml?domain=node.ws">https://www.website.ws/wc_landing.dhtml?domain=node.ws</a>.</p>

    shimooka
    shimooka 2015/02/17
    Data Driven DocumentでD3らしい。。。
  • Impala Cookbook (非公式)日本語版 (2) メモリ使用量

    昨日のImpala Cookbookの非公式日語版の続きです。昨日は「Impalaの物理設計とスキーマ設計」でした。日は「Impalaのメモリ使用量」です。 例によって駆け足で日語化してるので、間違いがあればコメントに書き込むかTwitterでメンションしてください。 原文: [1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186 メモリ使用量 – 基 メモリ以下により使用される Hash Join – 復元(decompression)、フィルタリング、射影 (projection)後のRHSテーブル Group by – グループ数に比例 Parquetの書き込みバッファ – パーティションごとに1GB IOバッファ (クエリに渡って共有される) メタデータの

    Impala Cookbook (非公式)日本語版 (2) メモリ使用量
  • Impala Cookbook (非公式)日本語版 (1) 物理設計とスキーマ設計

    The Impala Cookbook 概要 Part 1 – 基 物理設計とスキーマ設計 Impalaでのメモリ使用量 Part 2 – 実用上の問題 クラスタのサイジングと推奨ハードウェア Impalaでのベンチマーク マルチテナントのベストプラクティス クエリのチューニングの基 Part 3 – Impalaの外部 Apache Hive, Apache Sentry, Apache Parquetとのやり取り 物理設計とスキーマ設計 – 概要 スキーマ設計のベストプラクティス データ型 パーティション設計 一般的な質問 物理設計 ファイルフォーマット: いつ何を使うか ブロックサイズ(オプション) 物理設計とスキーマ設計 – データ型 数値(Numeric)型を使用する(Stringではなく) 可能であればString型を避ける String => 多くのメモリ消費、多くのディ

    Impala Cookbook (非公式)日本語版 (1) 物理設計とスキーマ設計
  • Hadoop を 10 分で試そうとしたら 2 時間 49 分かかった話 - garbagetown

    みなさんビッグデータしてますか?日は懺悔のブログです。 経緯 世間から遅れること五年、そろそろぼくもビッグデータしたいなと思って Hadoop 周りを調べてみたところ、エコシステムがもりもり成長中で Web 上の情報は新旧入り乱れているわ、書籍の情報はあっという間に古くなるわで、ビッグデータ界の Hello World 的な WordCount を試すのもひと苦労という有様でした。 そんな折、"2014年版 Hadoopを10分で試す(1) | Tech Blog" というブログを発見してキタコレ!と試してみたところ、いろいろあって 結果的に 10 分では試せなかったので、冗談半分で Hadoopを10分で試すというブログを参考にVMをダウンロードしたら残り2時間49分と表示されたときの顔をしてる— 箱と矢印と方眼紙 (@garbagetown) 2015, 2月 3 などとツイートした

    Hadoop を 10 分で試そうとしたら 2 時間 49 分かかった話 - garbagetown
  • 2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

    メタストアの役割 まず、Hadoopはデータベースではありません。HiveはHadoop(Hadoop分散ファイルシステム)にあるデータを処理するために、HiveQLにより開始されるMapReduceジョブをHadoopクラスタに投入(サブミット)するだけです。Hadoopクラスタからみれば、ワードカウントや円周率を計算するようなMapReduceジョブを実行することと、何の違いもありません。 このとき、MapReduceとして処理するために用いられるのがメタストアです。 昨日実行したクエリを例にしてみましょう。 SELECT * FROM sample_07 ORDER BY salary DESC; テーブルの名前は sample_07。ORDER BY salary としているので、少なくとも salary という列がありそうだことがわかります。 先ほど書いたように、Hiveで処理す

    2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)
  • 2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

    Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp

    2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)
  • 2014年版 Hadoopを10分で試す(1)

    Hadoop関連(全部俺) Advent Calendar 2014:7日目 先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか?」という質問がありました。 構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門:Hadoopを10分で理解する」 シリーズで紹介したCloudera Managerであり、Clou

    2014年版 Hadoopを10分で試す(1)
  • Cloudera ImpalaとCatalog Serviceの話

    Impalaのメタデータ ImpalaはHiveと共通のメタストアを使用しています。従来、メタデータが変更された場合には、Impalaで”invalidate metadata/refresh”コマンドを使用して変更を認識する必要がありました。Impala 1.2.Xから管理方法が変更となり、メタデータの変更を管理するサービス、Catalog Serviceが登場しています。 Catalog Serviceはメタデータの管理を行う中央型のサービスです。Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します。 このサービスにより、Impalaによって行われたメタデータの変更は”invalidate metadata”コマンドを実行することなく、全てのノードで自動的に認識され

    Cloudera ImpalaとCatalog Serviceの話
    shimooka
    shimooka 2015/02/17
    『Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します』
  • Cloudera Impalaのアーキテクチャ

    ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています) 一人アドベントカレンダー25日目、最終日です。 最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ(Impala v Hive)に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日語の記事もいずれ読めるようになるはず。。。 さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです

    Cloudera Impalaのアーキテクチャ
    shimooka
    shimooka 2015/02/17
    アーキテクチャからSQL/JOINまでの入門
  • Hadoop関連(全部俺) Advent Calendar 2014 - Adventar

    Hadoop、Hadoopエコシステム、Impala、Hue、HBase、Sparkなど、Hadoopに関連するアドベントカレンダーです。 (今年は例年より忙しいので、どこまで続くか不安) -> 2014.12.25 無事完走しました (^o^)/(が、十分時間が取れず、内容が薄くてすみません) 2013年のアドベントカレンダー: http://www.adventar.org/calendars/310 Tech Blog: http://linux.wwing.net/WordPress/

    Hadoop関連(全部俺) Advent Calendar 2014 - Adventar
    shimooka
    shimooka 2015/02/17
    あとで読む
  • 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)

    ■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 日Hadoopユーザー会 濱野 賢一朗/Kenichiro Hamano (NTTデータ)

    40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
    shimooka
    shimooka 2015/02/17
    40分もかからないけど、ざっと概要を掴める
  • 【中毒性注意】鶏胸肉が美味しくてはかどる禁断の廃人飯レシピ - ぐるなび みんなのごはん

    毎回、簡単にできて、そのうえで美味しくて病みつきになってしまうレシピを御紹介している中毒性注意シリーズ、今回は鶏胸肉を使ったレシピを御紹介します。 卓の力強い味方である鶏胸肉、安価にもかかわらずヘルシーで、鶏の旨みも十分に味わえるということで、普段よく使っている方も多いと思います。 今回はそんな鶏胸肉を使った一風変わったレシピを御紹介します。どれも簡単にできるものばかりです。ご飯のお供に、ちょっとしたおつまみに、子供のおかずに、いろんな使い方があると思います。ぜひ試してみてください。 1. しっとりぶるぶる鶏胸肉のお刺身 材料 1人分 鶏胸肉    1枚(150g) 料理酒    大さじ1 塩      小さじ1 片栗粉    大さじ1 大根おろし   適量 ポン酢     適量 レモン(飾り) 輪切り1枚 作り方 鶏胸肉は縦半分に切り、薄くそぎ切りにし、フォークで数カ所穴を空けてボウル

    【中毒性注意】鶏胸肉が美味しくてはかどる禁断の廃人飯レシピ - ぐるなび みんなのごはん
    shimooka
    shimooka 2015/02/17
    チーズを挟むのは良いかも
  • http://blog.yoslab.com/entry/2014/02/15/011402

    http://blog.yoslab.com/entry/2014/02/15/011402
  • 【閲覧注意】親の金でレクサス乗ってた奴の末路wwwwwwwwww : キニ速

    shimooka
    shimooka 2015/02/17
    はよ成仏しろ
  • ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp

    Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは(MapReduceの様な)バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。 サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上(正確には2136人)の開発者からの回答が得られた。そこから以下三点の結

    ビッグデータ・ツール「Spark」はHadoopよりホットかも知れない、だがまだ問題がある | readwrite.jp