[B! database][hadoop] beth321のブックマーク

beth321 id:beth321

databaseとhadoopに関するbeth321のブックマーク (19)

CassandraとHBaseの比較して入門するNoSQL
第10回Cassandra勉強会にて発表したスライドに、勉強会後のフィードバックを反映させた物です。Read less
beth321 2015/04/06
cassandra

slideshare

nosql

比較

hbase

db

Hadoop

資料

presentation

database
リンク
Hadoop Hack Night … 技術評論社
現在，米国Yahoo! Hadoopチームにてアーキテクトを務めるOwen O’Malleyが3月に来日いたします。それに合わせてHadoopの紹介，米国Yahoo!での活用事例などご紹介するセミナーを開催いたします。当日は参加者の方々とのトークセッションを設け，Hadoopコミュニティに所属しているOwen氏との交流の場も提供いたします。本イベントのTwitterハッシュタグは『#hadoophn』です。なお，当日の模様は以下のURLでUstream中継を予定しております。 http://www.ustream.tv/channel/hadoophn ネットワーク回線の都合により，3G回線での中継となることが予想されます。安定した配信ができない可能性がありますので，会場までお越しいただくことをおすすめいたします。「Hadoop Hack Night」に申し込むお申し込み期間：2月
beth321 2015/01/08
japan

hadoop

event

yahoo

Yahoo!

あとで読む

イベント

database

news
リンク
第5回　大規模データを扱うためのHBaseとCassandra | gihyo.jp
どんなところに使える？ HBaseやCassandraはどちらもRDBMSで扱いきれないような大規模なデータの扱いに力を発揮します。強力なスケーラビリティも備えているため、データが増えても処理速度はそれほど低下しません。また、列指向データベースの強みを活かして、大量のデータを更新するようなバッチ処理のストレージとして利用しても有用でしょう。具体的な利用シーン大規模なデータをスケーラブルに処理する必要がある場合大量データをバッチ処理する際のストレージとしての利用 HBaseのインストール本稿では、実際にHBaseを使ってみましょう[1]⁠。まずは1台のサーバ上で環境を整えます。わかりにくかもしれないので、以下の手順を参考にしてください。JDK6およびHadoopのインストールが必要です。プロンプト1　HBaseのインストール＆起動の手順 # http://java.sun.com
beth321 2014/10/29
tutorial

HBase

cassandra

NoSQL

あとで読む

db

hadoop

データベース

分散

database
リンク
NoSQLデータベースを試してみる記事一覧 | gihyo.jp
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
beth321 2014/10/02
nosql

programming

Database

hadoop

kvs

データベース

技術

連載

あとで読む

DB
リンク
MPP on Hadoop, Redshift, BigQuery - Go ahead!
Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ！」というプレッシャーが半端ないのでてきとうに書きます．この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので，すべてが俺の経験ではありません(特にBigQuery)．各社のSAの人とかに聞けば，もっと良いアプローチとか詳細を教えてくれるかもしれません．オンプレミスの商用MPPは使ったことないのでノーコメントです． MPP on HadoopでPrestoがメインなのは今一番使っているからで，Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています．もちろん実装の違いなどがあるので，その辺は適宜自分で補間してください．前提アプリケーションを開発していて，そのための解析基盤を一から作る．簡単なまとめデータを貯める所が作れるのであれば，そこに直接クエリを投げられるPre
beth321 2014/08/09
BigQuery

*あとで

pocket

Hadoop

RedShift

Presto

mpp

Impala

fluentd

database
リンク
Treasure Data Service はどのようなケースに向いているか？ - トレジャーデータ（Treasure Data）ブログ
*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。前回は Treasure Data Service が生データストレージにあげられているという前提（つまりTreasure Data Service を利用している前提）で，それとBIなどのフロントエンドをシームレスに繋ぐための中間データベースはどれが良いか，という観点でお話しました。そして TQAがどのようなものかを理解し，Redshiftとは立つレイヤーが違うことをわかって頂く事が目的でした。 Treasure Data Service はどのようなケースに向いているか？ここでは視点を変えて，現在保持しているデータの性質を考慮した上で，どのサービス（データベース）を活用したらよいかを考えます。上図は現在それぞれの企業が持っているデータに対して，データサイズスキーマ変更可能性
beth321 2014/07/05
analysis

bigdata

TreasureData

DevOps

DB

Treasure Data

hadoop

database

business

log
リンク
Welcome to Apache™ Hadoop™!
This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul
beth321 2014/07/04
hadoop

database

java

apache

distributed

mapreduce

分散

分散処理

google

cloud
リンク
Presto: Free, Open-Source SQL Query Engine for any Data
Calling our Presto community speakers – we want to hear from you! Fill out out community call for papers to speak at upcoming meetups and conferences. What is Presto?Presto is an open source SQL query engine that’s fast, reliable, and efficient at scale. Use Presto to run interactive/ad hoc queries at sub-second performance for your high volume apps.
beth321 2014/07/04
Facebook

hadoop

facebook

databases

sql

presto

distributed

bigdata

database

hive
リンク
並列データベースシステムの概念と原理
2014/01/30 筑波大学情報システム特別講義Dの講義資料です。 join関係はNAIST時代の宮崎先生のデータ工学Ⅱの内容を参考にしてます。 animation有効なビデオはこちら https://vimeo.com/85598907Read less
beth321 2014/02/02
database

Hadoop

development

MapReduce

query_processing

db

データベース

concurrent

parallel

bigdata
リンク
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」（製品名「Cloudera Enterprise RTQ」）をオープンソースで公開しました。これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。グーグルのDremel
beth321 2014/01/04
hadoop

Impala

Cloudera

SQL

mapreduce

database

分散

BigQuery

opensource

OSS
リンク
オラクル、エンタープライズ向けNoSQLの新版「Oracle NoSQL Database 2.0」リリース。オープンソースの無償版も公開
Oracle NoSQL Databaseは、キーバリューストアであるOracle Berkeley DB Java Editionをベースに、分散処理機能、ロードバランス、管理機能、マルチノードバックアップ機能などを追加したもの。昨年10月に最初のバージョンが公開され、今回がそれ以来初のメジャーバージョンアップとなります。性能向上やOracle、Hadoopとの統合強化 Oracel NoSQL Databaseの基本的なアーキテクチャは変わらず、プライマリキーのハッシュによって指定されたノードにキー／バリューのペアを書き込む分散キーバリューストア。シングルマスター／マルチレプリカ方式で、マスターノードが落ちたときにはPAXOSベースの自動フェイルオーバーを行い、単一障害点の排除と可用性を実現しています。バージョン2.0での主な強化点は、性能向上、自動リバランシング、Oracel D
beth321 2013/12/15
NoSQL

Oracle

データベース

database

hadoop

KVS

DB

Java

OSS

BerkeleyDB
リンク
Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu
beth321 2013/12/05
japan

hadoop

google

ビッグデータ

あとでみる

it

database

publickey

*WEB知識

hcj13w
リンク
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン「Presto」を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl
beth321 2013/11/08
facebook

bigdata

sql

web制作

database

データベース

開発

hadoop

db
リンク
MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など
Integration of Hadoop and Mongo DB, Big Data’s Two Most Popular Techno logies, Gets Significant Upgrade | 10gen, the Mongo DB company Mongo DB Connector for Hadoopは、Hadoopへの入出力データとしてMongo DBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongo DBのデータへSQLライクな問い合わせインクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 Mongo DB BSONファイルをHadoop Distributed File System（HDFS）上に保存することで、データの移動を削減これにより以下のようなメリットが
beth321 2013/08/22
mongodb

hadoop

database

*あとで

Publickey

Big Data

tech

IT
リンク
FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）
Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか？ 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ（Jonathan Gray）氏による解説が行われました。解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか？ MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb
beth321 2013/08/08
Facebook

facebook

hbase

Hadoop

分散処理

データベース

database

nosql

DB

あとで読む
リンク
グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作
「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ（いわゆる「Big Data」）の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます（ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれ
beth321 2013/08/03
Google

mapreduce

bigquery

SQL

cloud

db

database

hadoop

サービス

app
リンク
Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった
Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Techno logy of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H
beth321 2013/07/25
facebook

hbase

NoSQL

cassandra

mysql

hadoop

db

データベース

database

開発
リンク
HBaseとはどんなNoSQLデータベースなのか？日本語で読める情報を集めてみた
Facebookが新しいサービス「Messages」の基盤として、NoSQLデータベースの「HBase」を選択したことを、先日の記事「Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった」で紹介しました。 HBaseは、Facebookによると次のような特徴を備えていると説明されてます。負荷に対して非常に高いスケーラビリティと性能を発揮 CassandraよりもシンプルなConsistency Model（一貫性モデル）を備えている自動ロードバランス、フェイルオーバー、圧縮機能サーバーごとに数十個のシャードを割り当て可能、などなどこのHBaseはどのようなデータベースなのでしょうか？情報を集めてみました。 HBase入門のプレゼンテーション最初に紹介するのは「HBaseエバンジェリスト」Tatsuya Kawano氏のプレゼン
beth321 2013/07/20
hbase

nosql

Hadoop

facebook

db

database

Cassandra

データベース

あとで読む

まとめ
リンク
優良企業はなぜHadoopに走るのか
ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する
beth321 2013/05/23
　 ITmedia ニュース

hadoop

mapreduce

クラウド

google

Cloud

DB

database

business

あとで読む

web
リンク
1