[B! MapReduce] clavierのブックマーク

clavier id:clavier

MapReduceに関するclavierのブックマーク (24)

Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
AWS Summit Tokyo 2015 TC-07での発表資料となります。社内の分析環境の紹介です。Read less
clavier 2015/06/09
AWS

spark

mapreduce
リンク
Private Presentation
Private content!This content has been marked as private by the uploader.
clavier 2015/05/03
hadoop

MapReduce
リンク
Etsyのレコメンデーションを学ぶ - ワザノバ | wazanova
https://codeascraft.com/2014/11/17/personalized-recommendations-at-etsy/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Etsyのレコメンデーションエンジンが、同社がオープンソースとして提供している機械学習パッケージ Conjecture （Scalding DSL + Hadoop）に追加されました。大まかな仕組みについては下記の通りです。作業としては、まず過去データを利用したユーザの興味度合いのマトリックスをつくりモデル化し、次にユーアごとに興味度合いが最大となるアイテムのセットを見つけるレコメンデーションの計算をする。データソースとしては数段階のレビューデータではなく、商品アイテムに対するユーザの実際のアクション（お
clavier 2014/11/19
hadoop

mapreduce

machinelearning
リンク
BigQuery読書会#2資料
2019年9月24日〜27日開催奈良文化財研究所主催文化財担当者研修「遺跡GIS課程」の資料です。 DEMデータから各種地形指標を作成するとともに透過や乗算を利用した視覚表現を学びます。
clavier 2014/08/27
mapreduce

hadoop

bigquery
リンク
BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー
先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており
clavier 2014/08/16
google

bigquery

development

bigdata

nosql

MapReduce
リンク
Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog
はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て
clavier 2014/05/08
MapReduce

hadoop

apache

java
リンク
Oedo Ruby Conference 04: Ruby会議でSQLの話をするのは間違っているだろうか
「Ruby会議でSQLの話をするのは間違っているだろうか」 @大江戸Ruby会議04, 2014-04-19Read less
clavier 2014/04/30
MapReduce

Hadoop

hive
リンク
IBM SPSS Modeler - ODBC Configuration Best Practices and Troubleshooting
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
clavier 2014/04/18
MapReduce
リンク
TokibitoさんのHadoop資料の補足 | White scenery @showyou
Hadoopとその周辺の紹介 – BPStudy http://t.co/ywmVJOmDth 上の資料、公開頂きありがとうございます。個人的にここは違うのではないかというのが幾つかあったので書きます。自分が書くとこも怪しいかもしれないので後ろからshiumachiせんせーとかが援護することを期待します。 > P2: Hadoopとは分散処理基盤　というより、　大規模並列処理基盤といった方が正しいかもしれません。あと大事なのは、Hadoopプロジェクト自体がGoogleのMapReduceプロジェクトの模倣品といったところです。HDFSもGFSという分散ファイルシステムの模倣品だったはず。 > P3: HDFSとは > NameNode DataNode Hadoop 1.0(CDH3)までは大体正しいです(Secondary NameNodeが欠けてますが)。Hadoop 2.
clavier 2014/01/09
hadoop

MapReduce
リンク
Foursquare: 機械学習のアルゴリズムがサービスを磨いてくれる - ワザノバ | wazanova
http://engineering.foursquare.com/2013/12/05/how-we-built-our-model-training-engine/ Foursquareでは、どこにチェックインしてもらうか、レコメンデーション、ディスカウント、プロモーションアップデートなどあらゆる場面で機械学習の手法を応用しています。1日あたり100万件のExplore機能のクエリと600万件のチェックインがあり、それを高速で処理するとともに、その情報は機械学習のモデルに活かされています。同社のエンジニアブログで、Data AnalystのMichael Liが、機械学習のためのModel Training Engine（MTE）の構築について語っています。多くの機械学習モデルが線形回帰かその類似のアプローチを利用していて、データをすぐに理解するという意味では利便性は高いが、ときに非
clavier 2013/12/09
MapReduce

ML
リンク
入門並列プログラミングとMapReduce - Yoshito Komatsu's Blog
この文書はGoogleの「Introduction to Parallel Programming and MapReduce」を日本語に翻訳したものです。原文のライセンスに従い、この文書はクリエイティブ・コモンズ表示 2.5 一般ライセンスの下に提供されています。なお、誤字脱字、誤訳などありましたらぜひコメント欄などでご指摘ください。対象読者と前提条件このチュートリアルは並列プログラミングとMapReduceプログラミングモデルの基本をカバーします。前提として、C++やJavaのような言語と、データ構造とアルゴリズムについての相当なプログラミング経験を必要とします。逐次プログラミングと並列プログラミングコンピューティングの初期には、プログラムは逐次プログラムでした。逐次プログラムとは、一続きの命令で書かれたプログラムのことで、そこでは各命令はひとつづつ順番に実行されま
clavier 2013/11/09
MapReduce

java

programming
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
clavier 2013/11/06
hadoop

cloudera
リンク
Elastic MapReduceを使って、FluentdでS3上に格納した、Ltsv形式のNginxのアクセスログを解析してみたお話。 - Technofara
今回何故、Elastic MapReduce + S3 + Fluentd + nginxを調査したのか Mysqlとか、analyticsとか、そのほかで色々データは取っていってるのですが、更に細かく解析するためには、ログレベルでの解析も必要になってくると思い調査し始めたのがきっかけです。調べてみると、Redshift、Big Query、TreasureDataなど色々あるんですね、でも今回は、Facebookで流れてきた記事に目がとまったので、まずはとElastic MapReduceの調査をしてみました。構成としては、Elastic MapReduce + S3 + Fluentd + nginxでやってみます。 Nginxで書きだしたltsv形式のログが、fluentdでS3に転送されています AWS上で準備（Elastic MapReduce Job Flows作成）
clavier 2013/09/15
LTSV

MapReduce

nginx

fluentd
リンク
Apache Sparkってどんなものか見てみる（その１ - 夢とガラクタの集積場
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、とりあえず資料や論文を読んでみることにしました。まず見てみた資料は「Overview of Spark」（http://spark.incubator.apache.org/talks/overview.pdf）です。というわけで、読んだ結果をまとめてみます。 Sparkとは？高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは？以下の2つの解析ユースケースにより適合するようMapReduceを拡張
clavier 2013/09/02
MapReduce

scala

spark
リンク
Treasure Data - naoyaのはてなダイアリー
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。
clavier 2013/03/23
fluentd

hadoop

programming

MapReduce
リンク
Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
clavier 2013/03/18
hadoop

MapReduce

apache

Mahout

aws
リンク
アクセス解析システムの裏側（公開用）
Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya
clavier 2012/09/25
cookpad

MapReduce

statistics

hadoop
リンク
English (US)
Did someone say … cookies? Twitter and its partners use cookies to provide you with a better, safer and faster service and to support our business. Some cookies are necessary to use our services, improve our services, and make sure they work properly. Show more about your choices.
clavier 2012/03/12
MapReduce

twitter

framework

scalability
リンク
MapReduceのパターン、アルゴリズム、そしてユースケース - きしだのHatena
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscala ble.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。いくつかの実用的なケーススタディも提供している。すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
clavier 2012/02/24
google

algorithm

java

MapReduce
リンク
データマイニング・アルゴリズムのトレンド
HDDの大容量化と分散処理技術の発達でビッグデータの処理が容易になってきたので、ここ数年はデータマイニングが地味なブームになっている（NYT - For Today’s Graduate, Just One Word: Statistics）。2000年代前半のデータウェアハウスのブームではコンセプトだけが先走っていた（大園(2002)）ので、随分と地に足がついた感じだ。しかし人気のアルゴリズムを見ている限りは、まだ十分にデータ分析がされているように思えない。 1. 10年間でソフトウェア的に進歩地に足がついていると言うのは、ソフトウェア的に色々な面で進歩が見られたことだ。ビッグデータの利用が可能になった事から、応用事例が増えているように思える。 1. 分散処理技術の進歩によるビッグデータの利用ハードウェア技術の進歩による高速化も著しいが、分散処理技術の進歩はビッグデータの利用を容易に
clavier 2012/01/10
MapReduce
リンク
1 2 次のページ