[B! Hadoop] tsupoのブックマーク

tsupo id:tsupo

Hadoopに関するtsupoのブックマーク (10)

進化するHadoop、戸惑うユーザー
「Hadoop」はこれまでのバッチ処理という枠を越え、汎用の分散データ処理プラットフォームへと進化し始めている。Hadoop上でSQLクエリーを高速に処理したり、インメモリー処理を実行したりすることも可能になった。しかしHadoopの急速な進化は、ユーザーに思わぬ影響も与え始めている。 Hadoopの進化を下支えしているのが、Apacheソフトウエア財団（ASF）が2013年10月に正式版をリリースした「Hadoop 2」が搭載する「YARN」である。クラスター管理とスケジューリング管理を司るYARNが追加されたことによって、MapReduce以外の様々な処理方式をHadoopクラスター内で同時に実行できるようになったからだ。 Hadoopのディストリビューション（検証済みパッケージ）のベンダーである米ホートンワークスのロブ・ベアデンCEO（最高経営責任者）は、2014年6月に開催した「H
tsupo 2014/06/27
従来のHadoop、つまりYARNを使わないHadoopのことを「Traditional Hadoop」と呼んでいる / 開発リソースをHadoop 2に注力し、Traditional Hadoopに対する性能改善や機能追加を、ほぼ止めてしまった

Apache

Hadoop

YARN

bigdata
リンク
試すのが難しい―機械学習の常識はMahoutで変わる
ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop（以下、Hadoop）の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」（以下、Mahout）です。本稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。そもそも、機械学習とは？機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ（すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ）、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。機械学習をビジネスに活用した例は、レコメンド（ユーザーや商品
tsupo 2012/03/08
Hadoopによって並列分散処理のハードルが下がった / これまであきらめていた大量のデータによる機械学習が現実的な選択肢になる / Mahoutはヒンディー語由来の「象使い」という意味

機械学習

Hadoop

MapReduce

Mahout

Java

textMining
リンク
Hadoop Advent Calendar 27日目 PigでJOINできない！ - White scenery @showyou, hatena
Hadoop Advent Calendarの27日目を担当します、showyouです。今日は自分とHadoopの1年でも書こうと思いましたが、誰もそんなの読みたいと思わないので軽いTipsでも書きます。自分は業務や趣味でPigとかHive(を少し)とExcelを(大量に)使っています。個人的に今まで触った感じを書いてみます。主観に基づくので話半分に聞いてください。 Hive まずHiveのいい点を書いておきます。 SQLっぽい言語で、SQLに慣れてれば割と書きやすい実行時にエラーが出ている場所が(Pigと比べて)わかりやすい partitionで高速化できるクエリがでかいと途中でこける場合があるテーブル作るのが面倒。間違ったテーブル定義すると検索できなくてエラーになることもある Pig 次にHiveに比べるとユーザ数が少なそうですが、PigのHiveと比べた特徴を書いときますク
tsupo 2011/12/28
Excel使いまくりなのか

Hadoop

Pig

Hive
リンク
Eventbrite
Your version of Internet Explorer is not longer supported. Please upgrade your browser.
tsupo 2011/08/25
2011年9月26日 10:00-18:30 ベルサール汐留

Hadoop

event
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
tsupo 2011/06/22
テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説

Hadoop

MapReduce

HDFS

textMining
リンク
Hadoopの死角、COBOLバッチ処理の並列化
Hadoopの死角、COBOLバッチ処理の並列化：現場にキく、Webシステムの問題解決ノウハウ（8）本連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題／トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に（編集部）クラウドで可能になった大量データ処理とバッチ処理クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ
tsupo 2011/01/27
グリッドバッチソリューション / 既存のバッチ処理プログラムを書き直さずに並列処理 / 入力データをうまく分割し、複数のサーバ上で並列処理させ、プログラムの出力を再結合

cobol

MapReduce

Hadoop
リンク
グーグルがHadoopにMapReduce特許の利用を許可
大規模分散処理の技術として知られるMapReduceは、グーグルが検索エンジンの基盤技術として開発したもの。そして同社はMapReduceの特許を1月に取得していました。グーグルがMapReduce特許を取得。Hadoopへの影響は？－ Publickey グーグルが特許を保有していることでMapReduceのオープンソース実装であるHadoopに対する影響が心配されていましたが、Apache Foundationの弁護士がグーグルの弁護団から特許の利用許可を得たことを明らかにしました。予想通りの展開に 4月23日付けでYahoo!のHadoopチームアーキテクトOwen O’Malley氏がメーリングリストに投稿した「Re: License for Google's patent」というメッセージ。この中でApache Foundationの弁護士が、グーグルからの特許利用許可を伝
tsupo 2010/04/27
「グーグルがMapReduceの特許を取得したことがあきらかになったときから、これは単なる防衛目的の特許取得であって、Hadoopの脅威とはならないと予想されていました。予想通りの展開となったわけです」

Google

patent

MapReduce

Hadoop

summarySite
リンク
優良企業はなぜHadoopに走るのか
ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する
tsupo 2009/10/15
増え続けるデータを効率よくハンドリングするための仕組みとしてRDBに変わる選択肢をMapReduce型のHadoopに求める動き / 「もう、特定のデータベースベンダーに、膨大なライセンス料を支払う時代ではない」

MapReduce

hadoop

database

business

cloudComputing

event

report
リンク
アマゾン、ウィザードだけで使えるHadoopサービス開始－＠IT
2009/04/02 米アマゾンの子会社、Amazon Web Services（AWS）は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ
tsupo 2009/04/03
Amazon Elastic MapReduceは、Apache Hadoop 0.18.3を利用したサービス / Java、Ruby、Perl、Python、PHP、R、C++ / 起動できるノード数に制限はないが、20インスタンス以上利用する場合には、事前に申請が必要

amazon

EC2

hadoop

mapreduce
リンク
九州大学にクラウド現れる
日本IBMと九州大学大学院システム情報科学研究院は12月2日、次世代の分散コンピューティングを研究、検証することができるクラウド・コンピューティング環境を同研究院に構築することで合意したと発表した。分散コンピューティング技術である「Hadoop」の検証などを行う。日本IBMはクラウド用ノードとして同社のブレードサーバ「IBM BladeCenter HS12/HS21」を同研究院に導入。まずはサーバブレード2台からはじめ、拡張する計画。日本IBMは技術者を派遣し、同研究院で履修する10人の院生と共にHadoop環境の要件定義、構築を行い、学内外での活用の可能性を探る「プロジェクト・ベースド・ラーニング」を行う。同研究院は今後、クラウドについての教育コースの開設や、学内IT基盤、外部インフラへのクラウドの適用を目指すとしている。日本IBMは、晴海事業所内にクラウドの検証施設を開設し検証
tsupo 2008/12/03
日本IBMは、晴海事業所内にクラウドの検証施設を開設し検証を行っているが、外部組織へのクラウド環境の構築は今回が初めて / 米IBMは米グーグルと協力し、米国のワシントン大学やマサチューセッツ工科大学、スタンフォード大学などにクラウド環境を構築する取り組みを行っている

cloudComputing

IBM

Hadoop

distributedComputing

technology

business
リンク
1