[B! MapReduce][Hadoop] clavierのブックマーク

clavier id:clavier

MapReduceとHadoopに関するclavierのブックマーク (12)

Private Presentation
Private content!This content has been marked as private by the uploader.
clavier 2015/05/03
hadoop

MapReduce
リンク
Etsyのレコメンデーションを学ぶ - ワザノバ | wazanova
https://codeascraft.com/2014/11/17/personalized-recommendations-at-etsy/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Etsyのレコメンデーションエンジンが、同社がオープンソースとして提供している機械学習パッケージ Conjecture （Scalding DSL + Hadoop）に追加されました。大まかな仕組みについては下記の通りです。作業としては、まず過去データを利用したユーザの興味度合いのマトリックスをつくりモデル化し、次にユーアごとに興味度合いが最大となるアイテムのセットを見つけるレコメンデーションの計算をする。データソースとしては数段階のレビューデータではなく、商品アイテムに対するユーザの実際のアクション（お
clavier 2014/11/19
hadoop

mapreduce

machinelearning
リンク
BigQuery読書会#2資料
6. MapReduce Design 実はMapとReduceだけじゃない Map, Combine, Shuffle, Reduce + 分散FS FS Map Map Map Map Map Combine Combine Combine Combine Combine Reduce Reduce FS Reduce Reduce shuffle 7. Map phase Map: 副作用なしで作りましょうこれにより順序や並列度を好きにできる Mapper in MapReduce input -> [ (key, value), (key, value), ... ]
clavier 2014/08/27
mapreduce

hadoop

bigquery
リンク
Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog
はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て
clavier 2014/05/08
MapReduce

hadoop

apache

java
リンク
Oedo Ruby Conference 04: Ruby会議でSQLの話をするのは間違っているだろうか
「Ruby会議でSQLの話をするのは間違っているだろうか」 @大江戸Ruby会議04, 2014-04-19Read less
clavier 2014/04/30
MapReduce

Hadoop

hive
リンク
TokibitoさんのHadoop資料の補足 | White scenery @showyou
Hadoopとその周辺の紹介 – BPStudy http://t.co/ywmVJOmDth 上の資料、公開頂きありがとうございます。個人的にここは違うのではないかというのが幾つかあったので書きます。自分が書くとこも怪しいかもしれないので後ろからshiumachiせんせーとかが援護することを期待します。 > P2: Hadoopとは分散処理基盤　というより、　大規模並列処理基盤といった方が正しいかもしれません。あと大事なのは、Hadoopプロジェクト自体がGoogleのMapReduceプロジェクトの模倣品といったところです。HDFSもGFSという分散ファイルシステムの模倣品だったはず。 > P3: HDFSとは > NameNode DataNode Hadoop 1.0(CDH3)までは大体正しいです(Secondary NameNodeが欠けてますが)。Hadoop 2.
clavier 2014/01/09
hadoop

MapReduce
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
clavier 2013/11/06
hadoop

cloudera
リンク
Treasure Data - naoyaのはてなダイアリー
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
clavier 2013/03/23
fluentd

hadoop

programming

MapReduce
リンク
Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
clavier 2013/03/18
hadoop

MapReduce

apache

Mahout

aws
リンク
アクセス解析システムの裏側（公開用）
Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya
clavier 2012/09/25
cookpad

MapReduce

statistics

hadoop
リンク
HadoopでMap/ReduceクラスのKey/Valueを自動判別する
HadoopでHiveなどを使わず生MapReduceアルゴリズムを書くと、MapクラスとReduceクラスのKey/Valueのクラス型をJob実行時にいちいち指定しなければいけないのが若干面倒くさく感じます。僕がまだあまりHadoopについて理解してないのかもしれませんが...
clavier 2011/10/17
hadoop

MapReduce
リンク
ZooKeeper を使ってみる(1) - hidemonのブログ
Hadoopのサブプロジェクトの一つにZooKeeperというのがある。分散システムを作るためのビルディングブロックとして非常に重要になってきそうなので、ちょっと調べて見ようと思う。ストリームコンピューティングシステムのS4でも使われているそうだ。どう使われているのかは知らない。 ZooKeeperとは ZooKeeperは、GoogleのChubbyを模したシステム。HadoopがGoogleのGFSとMapReduceを模したのと同じ構図だ。じゃあ、Chubbyはなんなのか、というとこれも一言で説明するのは難しい。非常に小規模なファイルに特化した分散ファイルシステム、ということになるのだろうが、実にさまざまな目的に使われているらしい。DNS代わり、ロックサービス、サービスの死活判定などなど。ZooKeeperは一通りこれらの目的に使えるようにできているようだが、どのくらい機能的に忠実
clavier 2011/03/07
google

Hadoop

MapReduce

ZooKeeper
リンク
1