タグ

storageとanalysisに関するraimon49のブックマーク (3)

  • 近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記

    久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。 なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って

    近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
  • Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services

    Amazon Web Services ブログ Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを 私達が扱わなければいけないデータの量は日々増え続けています(私は、未だに1,2枚のフロッピーディスクを持っていて、1.44MBというのが当時はとても大きいストレージだったことを思い出せるようにしています)。今日、多くの人々が構造化されたもしくは準構造化されたペタバイト規模のファイル群を、日常的に処理してクエリしています。彼らはこれを高速に実行したいと思いつつ、前処理やスキャン、ロード、もしくはインデックスを貼ることに多くの時間を使いたいとは思っていません。そうではなくて、彼らはすぐ使いたいのです: データを特定し、しばしばアドホックに調査クエリを実行して、結果を得て、そして結果に従って行動したいと思っていて、それらを数分の内に行いたいのです。 Amazon

    Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services
  • 業務でのオンラインストレージ利用で重視されるのは「価格」 - 有料が6割超

    スターティアはこのほど、「業務におけるオンラインストレージの利用状況」に関するアンケート調査の結果を発表した。同調査はオンラインストレージの利用者338人を対象として、2013年7月26日~7月31日に行われた。 発表によると、全体の48.1%の人が業務で個人向けサービスを利用していると回答しており、個人向けサービスと法人向けサービスの業務利用はほぼ半々という結果になっている。 個人向けサービスの利用者のうち最も多くの人が使っているのは「Dropbox」で、以下「Google Drive」「Yahoo!ボックス」「Microsoft Skydrive」と続く。過半数の人は「Dropbox」もしくは「Google Drive」を利用しており、「Yahoo!ボックス」と「Microsoft Skydrive」の利用者は合計で2割程度となっている。

    業務でのオンラインストレージ利用で重視されるのは「価格」 - 有料が6割超
  • 1