Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...
Hadoop初心者のアメリカ在住Java女子です。 Clouderaが提供しているCloudera Quickstartのdocker imageを使ってCloudera Managerを立ち上げてみました。 動作環境 Mac OS Dockerインストール済み 手順 Cloudera Quickstart imageをインストール まずはターミナルから $ docker pull cloudera/quickstart:latest (結構長く待たされた・・・) Dockerイメージを立ち上げ ネットでよく見る手順書にはこのコマンドが載ってるけれども、 $ docker run --hostname=quickstart.cloudera \ --privileged=true -t -i cloudera/quickstart:latest \ /usr/bin/docker-quic
HBaseのテーブルは、qualifierの中はデータ追加で自動的に増やせるが、family(列)はテーブルを一旦使用不可にして項目追加を行わないと増やせない。 したがって変化の無いものを列(family)にする方がいいんじゃないかと思う。 (試験名の方を可変にしておけば、模試とか補習(苦笑)とかにも対応できるし) 準備:テーブルの作成 今回のサンプル用に、HBase Shellからcreateコマンドを実行するか、HBaseのテーブル作成APIを使ってテーブルを作成しておく。 HBase Shellの場合 hbase(main):001:0> create 'student','personal','suugaku','kokugo','rika','shakai','eigo','total5' HBase APIの場合 package jp.hishidama.hadoop.hbas
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
Hadoopはホットだ、だがその従兄弟であるSparkは更にホットな存在だ。 Sparkは5年前のApache Hadoopの様な存在で、バークレー大 AMP研で生まれた、Hadoopのエコシステムで動くMapReduceに代わる高速データ処理エンジンだ。これは(MapReduceの様な)バッチ処理および、ストリーミングやインタラクティブ・クエリーといった新しいワークロードや、機械学習やグラフ処理でよく見られる反復アルゴリズムの処理に対応している。 サンフランシスコに拠点を構えるTypesafeは、私が去年記事で触れたJava開発者に対するよく知られたアンケート調査のスポンサーであり、Scala、Playフレームワーク、Akkaのコマーシャルな支援者だ。最近行われたSparkについてのアンケート調査では、2000人以上(正確には2136人)の開発者からの回答が得られた。そこから以下三点の結
米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日(米国時間)に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる(関連記事:NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入)。 Sparkは、もともと米Universi
Fluentd is a JSON-based, open-source log collector originally written at Treasure Data. Fluentd is specifically designed for solving big data collection problem. Many companies choose Hadoop Distributed Filesystem (HDFS) for big data storage. [1] Until recently, however, the only API interface was Java. This changed with the new WebHDFS interface, which allows users to interact with HDFS via HTTP.
Hadoop内部の負荷状況などをグラフィカルに表示するOSSツールが登場。Javaプログラム解析ツールを流用し、HTML5などを駆使して内部の挙動を可視化する Acroquest Technologyは、2012年11月9日、Hadoop/HBaseの内部動作を可視化するソフトウェア「halook」をオープンソースソフトウェアとして公開した。CDH 3u4、3u5で動作確認済み。 Hadoopは分散処理を行うため、多数のノードを連携して動作する。データの処理が多数のノード、多数のプロセスで実行されるため、処理中に問題が発生した際の調査が非常に困難とされる。halookは、Hadoopシステムにおける障害や稼働状況そのものの可視化を実現している。可視化の対象は、並列処理タスク、Region、データノード。 HDFSのクラスタノード「DataNode」のデータの偏りを可視化する「HDFS Da
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Apache Software Foundation(ASF)のApache Cassandra Projectは4月13日(米国時間)、オープンソースの分散データベース管理システム「Apache Cassandra 0.6」を公開した。「Apache Hadoop」に対応、Hadoopを使った分析クエリを実行できるようになった。 Cassandraは耐障害性の高さやデータの分散保持、リッチデータモデル、柔軟性の高さなどを特徴とする分散データベースシステムで、すでにDiggやFacebook、Twitterといった大手サイトで利用されている。もともとは米Facebookが自社開発した技術で、同社が2009年にASFにコードを寄贈した。ASFは今年2月、Cassandra Projectをインキュベータからトップレベルプロジェクト(TLP)に承認、バージョン0.6は、TLPになってから初めて
8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続
Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。本日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以
TOPICS Database 発行年月日 2010年01月 PRINT LENGTH 568 ISBN 978-4-87311-439-2 原書 Hadoop: The Definitive Guide, First Edition FORMAT 本書は、Hadoopの基礎から応用までを包括的に解説する書籍です。はじめに、Hadoopの分散ファイルシステムHDFSやI/Oの効率化の仕組みなど、Hadoopの基礎を説明し、なかでもMapReduceについて詳しく解説します。MapReduceのアプリケーションを開発するために必要なステップを一通り紹介し、さらにユーザの目から見てMapReduceがどう実装されるのかを詳述します。後半ではHadoop管理者のために、HDFSとMapReduceを実行するためのHadoopクラスタの立ち上げと管理の方法を紹介。さらにPig、HBase、ZooK
alo 789 đăng nhập Hãy tham gia những trang web hàng đầu để trải nghiệm cờ bạc trực tuyến và tăng cơ hội giành giải lớn cùng với phần thưởng hấp dẫn, giúp quyết định dễ dàng hơn. Truy cập trang web hàng đầu để tham gia slot game và tăng cơ hội chiến thắng bằng cách đặt cược sau khi nghiên cứu! Chọn trò cá cược trực tuyến phổ biến, đăng ký thành viên và bắt đầu trải nghiệm ngay hôm nay. Sàn cá cược
Hadoop で計算したデータは HDFS にファイルとして保存するのが手軽ですが、出力されたファイルに含まれるデータ片にアクセスするにはファイルを全ロードする必要があって面倒です (MapFile にはランダムアクセスできますが)。このような場合データベースにデータを格納すると格納された個々のデータ片アクセスできて便利です。 そこで HBase という データベースにデータを格納し、後でそのデータを取り出すという処理について調べてました。HBase は Hadoop のサブプロジェクトであり、キーバリューペアのデータを格納できます。HBase ではシリアライズされたオブジェクトを入れておいて、後でデシリアライズすることでオブジェクトを元通り復元することができます。 HBase のシリアライズの仕方については、HBase の Serialization テストを見ると書いてあります。ただ少
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く