[B! hadoop] yamataku13のブックマーク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

yamataku13 2015/04/01

リンク

Hadoop Conference Japan 2014に参加してきました | DevelopersIO

7/8（火）に開催されたHadoop Conference Japan 2014に参加してきました。【キーノート】濱野賢一朗（日本Hadoopユーザー会, NTTデータ）実際には私用で10:30ぐらいから参加したので聞いていないのですが、ハッシュタグ#hcj2014をたどる限り今回は参加者が1296名で、初参加が65%だったそうです。新規に参加される方が半分以上というのは裾野が広がったということなんでしょうか？ Doug Cutting （Hadoop生みの親, Apache Software Foundation, Clouderar 『The Future of Data』途中から聞いたのですが、恐らくThe Future of Data | Cloudera VISIONに書かれている内容を話していたようです。オープンソースの勝利という部分は相当熱く語っていたようで、T

yamataku13 2014/07/10

hadoop
japan

リンク

「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO

「SQLを使ったクエリー処理を低遅延で実行できる『Impala』を、2013年に『Hadoop』のディストリビューションに追加する」――。Hadoopのディストリビューションを販売する米クラウデラのアメル・アワダラーCTO（最高技術責任者、写真）は2012年11月7日、東京都内で開催した「Cloudera World Tokyo」で講演し、同社の製品ロードマップなどについて解説した。 Cloudera World Tokyoは、クラウデラが日本で初めて開催する自社カンファレンスである。米本社の共同創業者でありCTOを務めるアワダラー氏が基調講演に立った。クラウデラは2013年に、Hadoopディストリビューション「Cloudera’s Distribution including Apache Hadoop（CDH）」の次期バージョン「CDH 5」をリリースする予定。CDH 5には、SQL

yamataku13 2012/11/08

リンク

Cassandraの構造 - LunaBiblos

Software > DataBase > KeyValueストア > Cassandraの構造概要 Cassandraの構造を解説します。 CAP定理から見たCassandra CAP定理に基づいて考えると以下の通りに分類される DB名CoherencyAvailabilityPartitioning Tolerance

yamataku13 2012/07/26

リンク

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

Hadoopの現実解「バッチ処理」の常識をAsakusaで体得：ビッグデータ処理の常識をJavaで身につける（7）（1/4 ページ） Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク／ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。本稿では、並列分散で「バッチ処理」を行う方法につい

yamataku13 2012/05/28

リンク

MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。そこで今回は、（何番煎じか分かりませんが自分の理解のためにも）この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form（足し算で表現できる形）になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

yamataku13 2012/05/28

リンク

PHP と MySQL でカジュアルに MapReduce する

PHP と MySQL で 1 カチャカチャカチャ...ッターン！ MapReduce (@ニコニコ超会議)Yuya Takeyama

yamataku13 2012/03/28

リンク

fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ

概要複数台のWebサーバのログを fluent と hoop を使ってリアルタイムにHDFSに追記していくテスト。より頻度の高い行動解析を行うことができるようになる？参考にしたブログ： tagomorisのメモ置き場テスト構成 # 初めてテキストで図書いた。 # 線を交差させる所で面倒くさくなって適当に... web01 server fluent master +---------+ +---------+ | Fluentd |--+--->| Fluentd |--+ +---------+ |+-->+---------+ | Proxy || +-->+--------+ +--------+ || | hoop |-->| HDFS | web02 server || fluent slave +-->+--------+ +--------+ +---------+

yamataku13 2012/03/22

リンク

Welcome to Apache™ Hadoop™!

This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

yamataku13 2010/06/15

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

hadoopに関するyamataku13のブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス