タグ

2015年3月12日のブックマーク (4件)

  • Impala概要 道玄坂LT祭り 20150312 #dogenzakalt

    スライド中のURI - Kuduのインストール(Cloudera Manager使用) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_installation.html - Impala-Kuduのインストール(CDH5.8以前) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_impala.html#install_impala - Apache Kudu Troubleshooting http://kudu.apache.org/docs/troubleshooting.html - Apache Kudu project page http://kudu.apache.org/ - Cloudera Eng

    Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
    kimutansk
    kimutansk 2015/03/12
    Parquetは生成時に時間かかってましたがやはり書込みは遅かったですか。読む時は優秀なんですけどね。
  • Can Spark Streaming survive Chaos Monkey?

    by Bharat Venkat, Prasanna Padmanabhan, Antony Arokiasamy, and Raju Uppalapati Netflix is a data-driven organization that places emphasis on the quality of data collected and processed. In our previous blog post, we highlighted our use cases for real-time stream processing in the context of online recommendations and data monitoring: With Spark Streaming as our choice of stream processor, we set o

    Can Spark Streaming survive Chaos Monkey?
    kimutansk
    kimutansk 2015/03/12
    Spark Streamingの耐障害性の話。Streamingは基本常時動作になるので、耐障害性は単なるSparkより重要な話になりますね。
  • Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ

    ホリデー事業室の内藤です。 ホリデー事業室は昨年の4月に発足した部署で、Holiday(https://haveagood.holiday)という新規サービスの開発を行っています。 Holiday とは、クックパッドが長年取り組んでいる「毎日の料理を楽しみにする」分野からは少しだけ離れ、「いつもの休日を楽しくすることで人生を豊かにする」ことを目指したサービスです。 例えばこちらのおでかけプランのように、「〇〇に行くならここも行ったほうがいいよ」や「〇〇を散策するならこのコースだよね」など、おでかけのレシピを投稿したり探すことができるようになっています。 今回は、全文検索エンジン Elasticsearch を使って、全文検索と位置情報を絡めた検索についてお話したいと思います。 稿で説明する内容は、実際に Holiday の中でも応用を加えた形で使われています。 Holiday では、複数

    Elasticsearch を使った位置情報検索 - クックパッド開発者ブログ
    kimutansk
    kimutansk 2015/03/12
    住所>GeoData変換やGeoData間の距離算出までは比較的簡易にできて、ESでも扱いやすいと。
  • Google、1GB当たり1セントながら3秒以内にデータ取得できるニアラインストレージ「Cloud Storage Nearline」提供開始

    Google、1GB当たり1セントながら3秒以内にデータ取得できるニアラインストレージ「Cloud Storage Nearline」提供開始 一般にITのシステムおいてストレージはシステム全体の性能を左右する重要なコンポーネントであるため、高性能なSASドライブやSANストレージ、最近ではフラッシュストレージなどが多く用いられます。 こうした性能重視のストレージは一般にオンラインストレージ、あるいはプライマリストレージなどと呼ばれますが、これに対してバックアップ用途や、容量あたりのコストなどを重視したストレージを「ニアラインストレージ」と呼びます。低価格なSATAハードディスクなどを用いたストレージなどがこれに相当します。 長期保存やアーカイブが主目的となり、光学ディスクや磁気テープのように読み出し時にメディアを交換したりマウントするようなストレージのことを「オフラインストレージ」と呼び

    Google、1GB当たり1セントながら3秒以内にデータ取得できるニアラインストレージ「Cloud Storage Nearline」提供開始
    kimutansk
    kimutansk 2015/03/12
    Amazon Glacierより明らかに使いやすいのでデータのアーカイブ用途だったらこれでよさそうな感じです。後はAWSがどう対抗してきますか・・・