タグ

Hadoopとhadoopに関するyamataku13のブックマーク (9)

  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • Hadoop Conference Japan 2014に参加してきました | DevelopersIO

    7/8(火)に開催されたHadoop Conference Japan 2014に参加してきました。 【キーノート】 濱野 賢一朗 (日Hadoopユーザー会, NTTデータ) 実際には私用で10:30ぐらいから参加したので聞いていないのですが、ハッシュタグ#hcj2014をたどる限り今回は参加者が1296名で、初参加が65%だったそうです。新規に参加される方が半分以上というのは裾野が広がったということなんでしょうか? Doug Cutting (Hadoop生みの親, Apache Software Foundation, Clouderar 『The Future of Data』 途中から聞いたのですが、恐らくThe Future of Data | Cloudera VISIONに書かれている内容を話していたようです。 オープンソースの勝利という部分は相当熱く語っていたようで、T

    Hadoop Conference Japan 2014に参加してきました | DevelopersIO
  • 「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO

    SQLを使ったクエリー処理を低遅延で実行できる『Impala』を、2013年に『Hadoop』のディストリビューションに追加する」――。Hadoopのディストリビューションを販売する米クラウデラのアメル・アワダラーCTO(最高技術責任者、写真)は2012年11月7日、東京都内で開催した「Cloudera World Tokyo」で講演し、同社の製品ロードマップなどについて解説した。 Cloudera World Tokyoは、クラウデラが日で初めて開催する自社カンファレンスである。米社の共同創業者でありCTOを務めるアワダラー氏が基調講演に立った。クラウデラは2013年に、Hadoopディストリビューション「Cloudera’s Distribution including Apache Hadoop(CDH)」の次期バージョン「CDH 5」をリリースする予定。CDH 5には、SQL

    「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO
  • Cassandraの構造 - LunaBiblos

    Software > DataBase > KeyValueストア > Cassandraの構造 概要 Cassandraの構造を解説します。 CAP定理から見たCassandra CAP定理に基づいて考えると以下の通りに分類される DB名CoherencyAvailabilityPartitioning Tolerance

  • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 稿では、並列分散で「バッチ処理」を行う方法につい

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • PHP と MySQL でカジュアルに MapReduce する

    8. 普通名詞として •Map/Reduce 関数でデータを 処理するプログラミングモデル • マシンを増やしただけスケール •Hadoop, MongoDB, CouchDB などが主な実装

    PHP と MySQL でカジュアルに MapReduce する
  • fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ

    概要 複数台のWebサーバのログを fluent と hoop を使ってリアルタイムにHDFSに追記していくテスト。 より頻度の高い行動解析を行うことができるようになる? 参考にしたブログ: tagomorisのメモ置き場 テスト構成 # 初めてテキストで図書いた。 # 線を交差させる所で面倒くさくなって適当に... web01 server fluent master +---------+ +---------+ | Fluentd |--+--->| Fluentd |--+ +---------+ |+-->+---------+ | Proxy || +-->+--------+ +--------+ || | hoop |-->| HDFS | web02 server || fluent slave +-->+--------+ +--------+ +---------+

    fluent と hoop を使って HDFS にリアルタイムにログを流す - tester7のブログ
  • Welcome to Apache™ Hadoop™!

    Apache Hadoop The Apache® Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation an

  • 1