[B! hadoop] [10ページ] wasaiのブックマーク

wasai id:wasai

hadoopに関するwasaiのブックマーク (273)

サービス終了のお知らせ - NAVER まとめ
サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。
wasai 2011/06/20
Naver

まとめ

Hadoop
リンク
第1回　Hadoopで広がるビジネス領域 | gihyo.jp
はじめに近年、「⁠Hadoop」というキーワードをよく目にします。もしかしたらこの記事を読んでいるあなたも、Hadoopというキーワードを目にしたり聞いたりしたことがあり、興味を持ってこの記事をご覧になっているのかもしれません。Hadoopとは何でしょうか？何ができるのでしょうか？今回から全5回にかけて、Hadoopの活用事例や活用のヒント、そしてこれからHadoopを活用しようと考えているエンジニアが知っておくべきことや、情報収集の仕方を解説します。 Hadoopって何？ Hadoopとは何でしょうか。簡単に言うと、テラバイト、ペタバイトといった巨大なデータを処理するためのオープンソースの分散処理基盤で、Googleが検索エンジンのバックエンドに利用している技術のクローンです。Googleは2003年に大規模分散ファイルシステム「Google File System（GFS⁠）⁠」につ
wasai 2011/06/16
Gihyo

Hadoop

MapReduce
リンク
MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
MapReduceというと集計に使うモノという人が多いと思う。なんとなれば、MapReduce＝Hadoop＝ワードカウントの図式になっているからだ。実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()
wasai 2011/06/12
hadoop

MapReduce

アルゴリズム
リンク
NTTデータのHadoop報告書を読んでみた - wyukawa's diary
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、１か月ほど前からHadoop仕事を始めたこともあり読んでみました。ま、現状はNTTデータから仕事もらっている立場だし提灯記事でも書こうかとw 目次はこんな感じになってます。で、全部で375ページもあるわけですが、アプリ開発者がとりあえず読むなら２章です。もうちょっと突っ込むなら関連する８章もプラスして読むといいでしょう。どうでもいいけど印刷して読んだほうがいいかも。僕はiPadで読みましたが２章は割とページをいったりきたりしたので。２章では渋滞解析アプリケーションを事例としてMapReduceアプリをどのように設計して、実装するのかが記述されていてとても参考になります。というかこれだけまとまった情報は象本にもHadoo
wasai 2011/06/12
NTTデータ

Hadoop

MapReduce

運用
リンク
HbaseとPigで遊んでみる。その1 - ここにタイトルを入力|
そんなわけでもうそろそろ6月ですが、3月のに行ったインターンで学んだこととか思い出すためにHadoopで遊んでみました。方針的にはHBaseを中心に、適当にTwitter検索的なものを作ってみたり、あとはPigとかいじれればいいなぁ、と考えてます。あと、基本的には「Hadoop徹底入門」をベースに経験をプラス、といったところです。あまり有用な情報があるかは分かりませんが、メモ程度に。兎にも角にもとりあえず準備から。準備手頃なマシンもないし、最初はEC2とか使ってみようかなー、とか思ったのですが、諸般の都合でVMWare上でやってます。 OSは適当にCentOS。Gentooとかも考えたんだけど、めんどそうなので一番簡単そうなせんとくんで。 HadoopはClouderaのをyumで。一番簡単そうｎ(ry ついでにいえば、一番簡単そうな疑似分散モードで遊ぼうと思ってます。気が向
wasai 2011/05/30
あとで読む

Hadoop

Pig

あとで読む
リンク
オライリー「Hadoop」勉強会で２章を担当した話（ストリーミング動かず） - ビットの海に溺れて
hadoopHadoop作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型本購入: 9人クリック: 345回この商品を含むブログ (72件) を見る社内でHadoop勉強会を始めたので、象本の２章を担当して先日発表しました。内容ほとんどありませんが、晒したところでどうにかなるようなものでもないので晒します。Hadoop 第２章 View more presentations from Shinichiro Hasegawa簡単なMapReduceをPerlで書いてはみたものの、なぜか手元の環境では動かず（jobがこけてしまいます）。恥を偲んで晒しておきましょう（動かないですよ！）map.pl use strict; use warnings; while (chomp(my $line = ) ) { my
wasai 2011/05/30
あとで読む

Hadoop

勉強会

slideshare

あとで読む
リンク
会社を作りました。 - 急がば回れ、選ぶなら近道
さて、会社を作った。（元）EC-ONEの最首さんと一緒につくった。 EC-ONE側は、SI事業をウルシステムズへ統合して、分社化する。僕らのチームがそのままEC-ONEに移動し、そして新しい会社を作る。分散をやっているEC-ONEの福岡のチームと合流して、分散技術や次世代の技術を業務に活かすということをいろいろでやっていく会社（というか入れ物だ）を作る。分散技術にウェイトを置いて起きつつ、ソリューションにしていくための入れ物ですね。「ノーチラス・テクノロジーズ」 NAUTILUS Hadoopや分散技術をエンタープライズに活かしていくことを目的にした日本では最初の会社になると思う。 1.まず手始めにHadoopを中心の道具立てにしていく幸いAsakusaもチームの頑張りで晴れてOSSになったし、実際に動いている開発効率の高さは自分でもびっくりしているぐらいだ。分散技
wasai 2011/05/27
永続的にエンジニアリングができること、っていいなぁ

会社

起業

Hadoop

OSS
リンク
Hadoopを使ってTwitterやFacebook上での「影響力」を数値化するには - nokunoの日記
Hadoopを使ってTwitterやFacebook上での「影響力」を数値化しているKloutというサービスがあるそうです。大変興味深かったので翻訳してみました。元記事のCloudera社とKout社の許可を頂いて掲載しています（@shiumachiさん、ありがとうございます！） Using Hadoop to Measure Influence | Apache Hadoop for the Enterprise | Cloudera ソーシャルメディア上の影響力測定サービス「Klout」とはKlout | The Standard for InfluenceKloutのゴールは影響力の数値化の分野でのスタンダードになることだ。近年のソーシャルメディアの普及により、多くの測定可能な友達関係に関する情報が手に入るようになってきている。Facebookユーザには、平均して130人の友達がいる
wasai 2011/05/22
KloutってHadoop使ってたのか

Hadoop

Klout

twitter

Facebook

機械学習
リンク
Kansai.pm での発表資料 (Hadoop Streaming で MapReduce) - naoyaのはてなダイアリー
Kansai.pm に参加しました。とても楽しかったです。自分も "Hadoop Streaming で MapReduce" という題目で発表しました。取り急ぎ、資料を以下に公開します。 http://bloghackers.net/~naoya/ppt/080530kansai pm.ppt MapReduce は Google のバックエンドで動いている分散並列バッチ処理システムです。GFS は Google の分散ファイルシステムです。Google ウェアのクローンとしてオープンソースで開発されているのが Hadoop。Hadoop は Yahoo! Inc や Facebook, Amazon.com などでも利用されているとのこと。Hadoop は Java ですが、Hadoop Streaming を使うと　Java 以外でも MapReduce できます。以下のエントリも合
wasai 2011/05/18
あとで読み直しておこう

kansai.pm

勉強会

Hadoop

MapReduce

ppt

資料
リンク
Perl で MapReduce - Mahout Frequent Pattern Mining Data - - hamadakoichi blog
最近、Perl も書き始めてみたので、Hadoop 上で分散実行できる Perl での MapReduce 実装を紹介する。大規模データマイニング・機械学習のライブラリ Apache Mahout の Parallel Frequent Pattern Mining の入力データを生成する Perl MapReduce 実装の紹介。 Frequent Pattern Mining 入門 Frequent Pattern Mining (Association Analysis )は、隠されたルールパターンを抽出するアルゴリズム。有名な例としては、1992年のウォルマートのクリスマス商戦で「おむつを買った人は半ダースのビールを買う可能性が最も高い」という頻出ルールを抽出し、商品陳列に活かした売上向上した事例。入門資料：第５回R勉強会＠東京で話してきた - 「R言語によるアソシエーション
wasai 2011/05/17
あとで見ておく

Perl

MapReduce

Hadoop

slideshare

あとで読む
リンク
Mahout RandomForest Driver 実装法 -大規模分散機械学習・判別 - - hamadakoichi blog
Apache Mahout は、Hadoop上で動作する大規模分散データマイニング・機械学習のライブラリ。 Random Forest は大規模データで高精度の分類・判別を実現するアルゴリズム。 Random Forestを、"R言語での実行のように容易"に "大規模分散学習・判別"できるように、 Mahout を用いた各種 Driver を実装しました。以下に実行方法、実装を紹介します。 org.mahoutjp.df.ForestDriver Random Forest の分散学習から、分散判別、判別結果出力、および、精度評価まで行う Driver。 org.mahoutjp.df.ForestClassificationDriver 生成された Forest Modelを用いて、分散判別、判別結果出力、および、精度評価まで行う Driver。両 Driver とも、1コマンドで
wasai 2011/05/09
メモ

Hadoop

Mahout

Random Forest
リンク
Mahout JP を立ち上げました #MahoutJP - hamadakoichi blog
Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Apache Mahout に関し、技術情報まとめ・発信よる活用の裾野を広げることを目的としMahout JPを立ち上げました。私も含め TokyoWebminingでMahoutに関する各種講師をしていたメンバーや、Tokyo.R、PRML会のメンバー含め、各業界のデータマイニング・機械学習で活動してきたメンバーで集まり、Mahoutに関する情報まとめ・発信をしていきます。 Mahout JP -Effective Applications of Apache Mahout in Japan- #MahoutJP 現在、Mahout はドキュメントがまだ整備されていなく、唯一ある書籍 Mahout in Actionでも情報が限られているため、実際に活用しようとするとソースコードから読み込む必要がある状態です。今回、
wasai 2011/05/03
Mahout JP

mahout

hadoop

datamining
リンク
The dark side of Hadoop - BackType Technology
At BackType, we are heavy users of Hadoop. We use it to run computations on our 30TB datastore of social data. We've even open-sourced some significant projects that are built on top of Hadoop. Unfortunately, Hadoop has probl ems. It's sloppily implemented and requires all sorts of arcane knowledge to operate it. We would be the first to try out a replacement for Hadoop if a viable alternative exis
wasai 2011/04/28
Hadoop、重要な設定が全然文書化されていないとか…

Hadoop
リンク
情報爆発にいかに対応するか
・著=ASCII.techno logies編集部・発行=アスキー・メディアワークス・2011年4月・ISBN-10：4048705741 ・ISBN-13：978-4048705745 ・2300円＋税 ※注文ページへ近年、日々大量に生成・蓄積される情報の管理・処理が企業の一大課題となっている。めまぐるしく変わる市場環境、顧客ニーズに追従するためには、自社の業務データ、顧客データなどを迅速に処理しなければならない。特に“情報爆発”とも形容されるほど情報量が増大している今、迅速な処理を実現する上ではITシステム側にも新しい仕組みが求められている。そうした中、注目を集めているのがHadoopとNoSQLだ。特に昨今は、Webサービス企業を中心に採用例が急増していることも手伝って、Hadoopが話題に上ることが増えたのではないだろうか。周知の通り、Hadoopは大規模なデータを複数の
wasai 2011/04/26
@IT

Hadoop

NoSQL
リンク
ムック「ビッグデータを征すクラウドの技術　Hadoop&NoSQL」発売されます - developer’s delight
Hadoop&NoSQL僕達も参加させていただいたASCII.techno logies1月号のHadoop特集が好評だったようでして、ムック本としてまとめられることになりました。雑誌の方はもう在庫がないようですので、まだ未チェックの方はこの機会にチェックしてみてはいかがでしょうか。Hadoop以外では、Mongo DBやCassandraなどの書きおろし＆連載記事が収録されており、じつに濃い内容になっております。3月にOSSとして公開され、注目を集めている分散処理フレームワークASAKUSAについても書きおろし記事が収録されています。僕達も本当は新しいネタでなにかかければよかったのですが、ふさわしいネタも、時間もありませんでした。無念 orzツイートする
wasai 2011/04/25
ASCII

NoSQL

Hadoop
リンク
TwitterにおけるHadoopとLuceneを利用した大規模データ解析について - nokunoの日記
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇（大学教授が長期の休みを取れる制度）でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitter エンジニアの@squarecogさんと
wasai 2011/04/24
Twitter

Hadoop

lucene

テキスト・マイニング

slideshare

MapReduce
リンク
Hadoopとデータサイエンティスト - wyukawa's diary
次の仕事がHadoop関連かもしれないということで、素振りというかイメトレはじめました。スライドはこちらがわかりやすいです。 Hadoop入門とクラウド利用まずは下記の書籍２冊を僕はぱらぱら見ています。 Hadoop 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型本購入: 9人クリック: 449回この商品を含むブログ (73件) を見るHadoop徹底入門作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型本購入: 14人クリック: 668回この商品を含むブログ (43件) を見る違いは下記の通りです。 Hadoopに関して現在日本語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Had
wasai 2011/04/19
確かにレイヤー別の分業体制が続くとは思えないなぁ。

Hadoop
リンク
Hadoopを用いた大規模ログ解析
JCBの Payment as a Service 実現にむけたゼロベースの組織変革とテクニカル・イネーブラー（NTTデータテクノロジーカンファレンス ...NTT DATA Techno logy & Innovation
wasai 2011/04/13
Hadoop

slideshare

Big Data

datamining

資料
リンク
ビッグデータの利用で得られる効能とは？
EnterpriseZine（エンタープライズジン）編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。
wasai 2011/04/12
EnterpriseZine

IT

ビッグデータ

Hadoop

datamining
リンク
MacにHadoop環境を整える - 元データ分析の会社で働いていた人の四方山話
mongo DBの勉強会でMapReduceの話が出てましたし、やはりHadoopは非常に気になります。ということで、 Hadoop on MacOSX - Happy-Camper Street MacでHadoopスタンドアローンモード - kj-kiのはてなダイアリーをMacにHadoop環境を作る参考に、本棚に眠っていたSoftware Design (ソフトウェアデザイン) 2010年 05月号 [雑誌] 技術評論社 2010-04-17 売り上げランキング : Amazonで詳しく見る by G-ToolsをHadoopの実行テストの参考にしました。やったこと Hadoopの取得 $JAVA_HOMEの設定 hadoopユーザー（Hadoopを実行するユーザー）の作成 hadoopユーザーの公開鍵によるログイン設定 hadoopをスタンドアロンモードで動かす hadoop
wasai 2011/04/12
Hadoop

MapReduce
リンク
前のページ 5 6 7 8 9 10 11 12 13 14 次のページ