サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
はじめに 近年、「Hadoop」というキーワードをよく目にします。もしかしたらこの記事を読んでいるあなたも、Hadoopというキーワードを目にしたり聞いたりしたことがあり、興味を持ってこの記事をご覧になっているのかもしれません。Hadoopとは何でしょうか?何ができるのでしょうか?今回から全5回にかけて、Hadoopの活用事例や活用のヒント、そしてこれからHadoopを活用しようと考えているエンジニアが知っておくべきことや、情報収集の仕方を解説します。 Hadoopって何? Hadoopとは何でしょうか。簡単に言うと、テラバイト、ペタバイトといった巨大なデータを処理するためのオープンソースの分散処理基盤で、Googleが検索エンジンのバックエンドに利用している技術のクローンです。Googleは2003年に大規模分散ファイルシステム「Google File System(GFS)」につ
MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮 これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、1か月ほど前からHadoop仕事を始めたこともあり読んでみました。 ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。 で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら2章です。もうちょっと突っ込むなら関連する8章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが2章は割とページをいったりきたりしたので。 2章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象本にもHadoo
そんなわけでもうそろそろ6月ですが、3月のに行ったインターンで学んだこととか思い出すためにHadoopで遊んでみました。 方針的にはHBaseを中心に、適当にTwitter検索的なものを作ってみたり、あとはPigとかいじれればいいなぁ、と考えてます。 あと、基本的には「Hadoop徹底入門」をベースに経験をプラス、といったところです。 あまり有用な情報があるかは分かりませんが、メモ程度に。 兎にも角にもとりあえず準備から。 準備 手頃なマシンもないし、最初はEC2とか使ってみようかなー、とか思ったのですが、諸般の都合でVMWare上でやってます。 OSは適当にCentOS。Gentooとかも考えたんだけど、めんどそうなので一番簡単そうなせんとくんで。 HadoopはClouderaのをyumで。一番簡単そうn(ry ついでにいえば、一番簡単そうな疑似分散モードで遊ぼうと思ってます。 気が向
hadoopHadoop作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型本購入: 9人 クリック: 345回この商品を含むブログ (72件) を見る社内でHadoop勉強会を始めたので、象本の2章を担当して先日発表しました。内容ほとんどありませんが、晒したところでどうにかなるようなものでもないので晒します。Hadoop 第2章 View more presentations from Shinichiro Hasegawa簡単なMapReduceをPerlで書いてはみたものの、なぜか手元の環境では動かず(jobがこけてしまいます)。恥を偲んで晒しておきましょう(動かないですよ!)map.pl use strict; use warnings; while (chomp(my $line = ) ) { my
さて、会社を作った。 (元)EC-ONEの最首さんと一緒につくった。 EC-ONE側は、SI事業をウルシステムズへ統合して、分社化する。 僕らのチームがそのままEC-ONEに移動し、そして新しい会社を作る。 分散をやっているEC-ONEの福岡のチームと合流して、 分散技術や次世代の技術を業務に活かすということを いろいろでやっていく会社(というか入れ物だ)を作る。 分散技術にウェイトを置いて起きつつ、ソリューションにしていくための入れ物ですね。 「ノーチラス・テクノロジーズ」 NAUTILUS Hadoopや分散技術をエンタープライズに活かしていくことを 目的にした日本では最初の会社になると思う。 1.まず手始めにHadoopを中心の道具立てにしていく 幸いAsakusaもチームの頑張りで晴れてOSSになったし、 実際に動いている 開発効率の高さは自分でもびっくりしているぐらいだ。 分散技
Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています(@shiumachiさん、ありがとうございます!) Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる
Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。 http://bloghackers.net/~naoya/ppt/080530kansaipm.ppt MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと Java 以外でも MapReduce できます。 以下のエントリも合
最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介。 Frequent Pattern Mining 入門 Frequent Pattern Mining (Association Analysis )は、隠されたルールパターンを抽出するアルゴリズム。有名な例としては、1992年のウォルマートのクリスマス商戦で「おむつを買った人は半ダースのビールを買う可能性が最も高い」という頻出ルールを抽出し、商品陳列に活かした売上向上した事例。 入門資料: 第5回R勉強会@東京 で話してきた - 「R言語によるアソシエーション
Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散 学習・判別"できるように、 Mahout を用いた各種 Driver を実装しました。 以下に実行方法、実装を紹介します。 org.mahoutjp.df.ForestDriver Random Forest の分散学習から、分散判別、判別結果出力、および、精度評価まで行う Driver。 org.mahoutjp.df.ForestClassificationDriver 生成された Forest Modelを用いて、分散判別、判別結果出力、および、精度評価まで行う Driver。 両 Driver とも、1コマンドで
Hadoop上で動作する 大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。 私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tokyo.R、PRML会のメンバー含め、各業界のデータマイニング・機械学習で活動してきたメンバーで集まり、Mahoutに関する情報まとめ・発信をしていきます。 Mahout JP -Effective Applications of Apache Mahout in Japan- #MahoutJP 現在、Mahout はドキュメントがまだ整備されていなく、唯一ある書籍 Mahout in Actionでも情報が限られているため、実際に活用しようとするとソースコードから読み込む必要がある状態です。今回、
At BackType, we are heavy users of Hadoop. We use it to run computations on our 30TB datastore of social data. We've even open-sourced some significant projects that are built on top of Hadoop. Unfortunately, Hadoop has problems. It's sloppily implemented and requires all sorts of arcane knowledge to operate it. We would be the first to try out a replacement for Hadoop if a viable alternative exis
・著=ASCII.technologies編集部 ・発行=アスキー・メディアワークス ・2011年4月 ・ISBN-10:4048705741 ・ISBN-13:978-4048705745 ・2300円+税 ※注文ページへ 近年、日々大量に生成・蓄積される情報の管理・処理が企業の一大課題となっている。めまぐるしく変わる市場環境、顧客ニーズに追従するためには、自社の業務データ、顧客データなどを迅速に処理しなければならない。特に“情報爆発”とも形容されるほど情報量が増大している今、迅速な処理を実現する上ではITシステム側にも新しい仕組みが求められている。 そうした中、注目を集めているのがHadoopとNoSQLだ。特に昨今は、Webサービス企業を中心に採用例が急増していることも手伝って、Hadoopが話題に上ることが増えたのではないだろうか。 周知の通り、Hadoopは大規模なデータを複数の
Hadoop&NoSQL僕達も参加させていただいたASCII.technologies1月号のHadoop特集が好評だったようでして、ムック本としてまとめられることになりました。雑誌の方はもう在庫がないようですので、まだ未チェックの方はこの機会にチェックしてみてはいかがでしょうか。Hadoop以外では、MongoDBやCassandraなどの書きおろし&連載記事が収録されており、じつに濃い内容になっております。3月にOSSとして公開され、注目を集めている分散処理フレームワークASAKUSAについても書きおろし記事が収録されています。僕達も本当は新しいネタでなにかかければよかったのですが、ふさわしいネタも、時間もありませんでした。無念 orzツイートする
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと
次の仕事がHadoop関連かもしれないということで、素振りというかイメトレはじめました。 スライドはこちらがわかりやすいです。 Hadoop入門とクラウド利用 まずは下記の書籍2冊を僕はぱらぱら見ています。 Hadoop 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型本購入: 9人 クリック: 449回この商品を含むブログ (73件) を見るHadoop徹底入門 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型本購入: 14人 クリック: 668回この商品を含むブログ (43件) を見る 違いは下記の通りです。 Hadoopに関して現在日本語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Had
mongoDBの勉強会でMapReduceの話が出てましたし、やはりHadoopは非常に気になります。 ということで、 Hadoop on MacOSX - Happy-Camper Street MacでHadoopスタンドアローンモード - kj-kiのはてなダイアリー をMacにHadoop環境を作る参考に、本棚に眠っていたSoftware Design (ソフトウェア デザイン) 2010年 05月号 [雑誌] 技術評論社 2010-04-17 売り上げランキング : Amazonで詳しく見る by G-ToolsをHadoopの実行テストの参考にしました。 やったこと Hadoopの取得 $JAVA_HOMEの設定 hadoopユーザー(Hadoopを実行するユーザー)の作成 hadoopユーザーの公開鍵によるログイン設定 hadoopをスタンドアロンモードで動かす hadoop
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く