Private content!This content has been marked as private by the uploader.
https://codeascraft.com/2014/11/17/personalized-recommendations-at-etsy/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約3時間前 Etsyのレコメンデーションエンジンが、同社がオープンソースとして提供している機械学習パッケージ Conjecture (Scalding DSL + Hadoop)に追加されました。大まかな仕組みについては下記の通りです。 作業としては、まず過去データを利用したユーザの興味度合いのマトリックスをつくりモデル化し、次に ユーアごとに興味度合いが最大となるアイテムのセットを見つけるレコメンデーションの計算をする。 データソースとしては数段階のレビューデータではなく、商品アイテムに対するユーザの実際のアクション(お
はじめに 先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。 そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装を わけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について 現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。 距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て
Hadoopとその周辺の紹介 – BPStudy http://t.co/ywmVJOmDth 上の資料、公開頂きありがとうございます。 個人的にここは違うのではないかというのが幾つかあったので書きます。自分が書くとこも怪しいかもしれないので後ろからshiumachiせんせーとかが援護することを期待します。 > P2: Hadoopとは 分散処理基盤 というより、 大規模並列処理基盤といった方が正しいかもしれません。あと大事なのは、Hadoopプロジェクト自体がGoogleのMapReduceプロジェクトの模倣品といったところです。HDFSもGFSという分散ファイルシステムの模倣品だったはず。 > P3: HDFSとは > NameNode DataNode Hadoop 1.0(CDH3)までは大体正しいです(Secondary NameNodeが欠けてますが)。Hadoop 2.
少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
Hadoopのサブプロジェクトの一つにZooKeeperというのがある。分散システムを作るためのビルディングブロックとして非常に重要になってきそうなので、ちょっと調べて見ようと思う。ストリームコンピューティングシステムのS4でも使われているそうだ。どう使われているのかは知らない。 ZooKeeperとは ZooKeeperは、GoogleのChubbyを模したシステム。HadoopがGoogleのGFSとMapReduceを模したのと同じ構図だ。 じゃあ、Chubbyはなんなのか、というとこれも一言で説明するのは難しい。非常に小規模なファイルに特化した分散ファイルシステム、ということになるのだろうが、実にさまざまな目的に使われているらしい。DNS代わり、ロックサービス、サービスの死活判定などなど。ZooKeeperは一通りこれらの目的に使えるようにできているようだが、どのくらい機能的に忠実
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く