[B! mahout] daisuke-mのブックマーク

ビズリーチにおけるEMR（AWS）活用事例

1. ON EMR活用事例〜3日で出来たレコメンデーション〜 #singtacks SHIN Takeuchi BIZREACH Inc. - Co-Founder/CTO LUXA Inc. – Co-Founder/CTO Lei Hau’oli Co., Ltd. – Founder/CEO 2. プロフィール • 竹内真（SHIN Takeuchi） – 所属企業 • 株式会社レイハウオリ代表取締役CEO • 株式会社ビズリーチ取締役CTO • 株式会社ルクサ CTO – 立ち上げ＆運営サービス • 2009年04月ビズリーチ • 2009年10月ドラゴンQ • 2010年08月ルクサ • 2012年10月 RegionUP • 2013年05月 codebreak; • 今後も新サービスが続々登場の予感。。。 #singtacks supported by2 3.

daisuke-m 2014/02/18

mahout
EMR

リンク

Mahoutイン・アクション - gotouma’s diary

Mahoutイン・アクション作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman,伊東直子,真鍋加奈子,堀内孝彦,都元ダイスケ出版社/メーカー: オライリージャパン発売日: 2012/10/26メディア: 大型本購入: 3人クリック: 26回この商品を含むブログ (11件) を見るレコメンデーションの質は、データの質と量に大きく左右される。「ガーベッジ・イン・ガーベッジ・アウト(ゴミを入れればゴミが出てくる)」がこれほど当てはまるものはないと言っても良い。質の高いデータは良い結果を生み、その量が多ければ多いほど、さらに良い結果を得ることができる。レコメンダのアルゴリズムには元来、データ集約性(data-intensive)がある。その計算では多くの情報を扱う。このため、実行性能はデータの量とその表現法に大きく影響を受ける。賢く選択さ

daisuke-m 2013/10/22

mahout

リンク

mahoutで用意されているanalyzerを調査してみた

mahoutでコマンドラインで実行しているマスタカです。 (´・ェ・)こんにつあー！！！！！！！！！！！以下のコマンドでseq2sparseを使ってvectorファイルを作る hogehogeのパラメータを変えることで文書の切り方が変わるようです ./mahout/bin/mahout seq2sparse -i $input_dir -o $output_dir -ow -ng 2 -a hogehoge そんなわけで調査してみた。いろんな場所で以下のように-aのパラメータを書かれているが org.apache.lucene.analysis.WhitespaceAnalyzer 実際はcore以下。どこかでluceneのバージョン変わったんですかね。 org.apache.lucene.analysis.core.WhitespaceAnalyzer なのでここのクラスのAna

daisuke-m 2013/10/06

mahout

リンク

mahoutおさわり - ippeiの雑多メモ

mahoutを使うっぽいのでお勉強。結局は、機械学習系のライブラリ群ってことね。 ■準備とりあえずVM環境構築。 Centos6.4をVM化今回はいろいろ面倒なので簡単に入れられるCDHで入れることにする。おっと、その前にjava jdkダウンロード->インストール環境変数の設定 [root@localhost ~]# cat /etc/profile.d/java.sh export JAVA_HOME=/usr/java/jdk1.6.0_45 export PATH=$PATH:$JAVA_HOME/bin ■CDH版　Mahoutのインストール普通にCDHをインストール。Managerはめんどくさそうだったのであきらめ。 1.cdh yumリポジトリをinstall http://www.cloudera.com/content/cloudera-content/clo

daisuke-m 2013/06/06

mahout

リンク

Mahout in Action読了 - Since 1975

daisuke-m 2013/05/30

mahout
Book

リンク

Mahoutを実行できるまで – OpenGroove

Hadoopエコシステムの一員で機会学習のフレームワーク、Mahout。この分野は数学的素養、統計的学問のバックアップがないと云々とよく言われるが…「そんなこと言ってたらいつまでたってもできないんだよ。INPOSSIBLE is just opinion なんだよ！」と勝手に自分を奮い立たせてお試し導入してみた。が、例によって躓きまくる。何も考えずにHadoop Hacks内Mahout Hacksに従ってソースからインストールしたら動かない。英語のフォーラムに書いてあったことだの、あれこれ試しまくったが、そもそもマシン上のHadoopはCDH4。yum install mahout であっさりCDH版インストール、環境変数も何も設定しなくとも動きましたよ…。オプションも何も指定せずにmahoutコマンドを打つと、help？らしきものが出力される。 $ mahout MAHOUT_LO

daisuke-m 2013/05/08

mahout

リンク

ITニュース｜トピックス｜Infoseekニュース

IT ランキングアイドルグループメンバー、彼氏とのツーショット“誤爆”を謝罪　運営は「彼氏と一定の距離」など処分

daisuke-m 2013/04/25

mahout

リンク

Mahout：環境構築 - HiiHahWIKI - making some notes for... -

Hadoopをセットアップ Mahout：環境構築 † Mahout in Actionを読んで勉強し始めました。まずは環境構築から。 Mahout本ではMaven使えって書いてあったけど、使用するライブラリの依存関係が明確に見えないのがいやだったので（ちゃんと見れば見えるけどw）、必要な資材をDLして環境構築しました。なお、Mahout本の最初の方ではHadoopはいらないけど、Hadoop上で実行するところまでやりたいので、Hadoopも合わせて構築してます。 ↑ Hadoopのセットアップ † HadoopはCDH3u6の0.20.2をインストールしてます。以下のURLよりtarballをDL。 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH3-Dow

daisuke-m 2013/04/18

mahout

リンク

Mahout：サンプル1：はじめてのレコメンド - HiiHahWIKI - making some notes for... -

Mahout：環境構築 Mahout：サンプル1：はじめてのレコメンド † Mahoutを使った初めてのレコメンドです。まあ、Mahout本に記載されているサンプルを実行してるだけですがw ※Mahout本にはimportするクラスとか書いてないけど、きっとサンプルソースはコーディングせずにDLして使ってね！ってことなんだよねw　それとも、それぐらい解決できない人はそもそも対象外ですよ、ってことなのかなw ↑ サンプルコード † うだうだ長いですが、端的には DataModel?にデータを食わせて Simirarityを計算させて Neighborhoodを計算させてそいつらを元にRecommenderを生成して RecommenderにレコメンドするユーザID（1）と提示（レコメンデーション）させるアイテム数（1）を渡しているってことです。 ■RecommenderIntro?.ja

daisuke-m 2013/04/17

mahout

リンク

第3回　Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp

HadoopとMahoutをインストールする Hadoopのバージョンに注意前回はマーケットバスケット分析の理論編として、アソシエーション分析とアプリオリアルゴリズムについて解説しました。今回は実践編として、Mahoutが実装しているアプリオリアルゴリズムを改良したFP-Growthを用いて、実際にマーケットバスケット分析を行ってみましょう。そのための準備として、まずMahoutとHadoopをインストールする必要がありますが、その際1つ注意する点があります。現在のMahoutの最新バージョンである0.7は、利用するHadoopのバージョンが0.20系である必要があります。しかし、Apacheの公式サイトからはすでにHadoopのバージョン0.20をダウンロードすることはできません。 Hadoopのバージョン0.20をお持ちでない方は、Cloudera社のページからダウンロードするこ

daisuke-m 2013/04/13

mahout

リンク

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO

よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

daisuke-m 2013/03/18

リンク

mahout インストールメモ - skozawa's blog

Apache Mahoutという機械学習ライブラリを触ってみたかったので、少し前にMahoutイン・アクションという本を買った。とりあえず、java, maven, mahout, hadoopをインストールしてみた Java インストール yum install java-1.6.0-openjdk* JAVA_HOMEを設定 ~/.bashrcに JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk.x86_64 を追加 maven インストール wget http://ftp.kddilabs.jp/infosystems/apache/maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz tar -xzf apache-maven-3.0.4-bin.tar.gz su mv apache

daisuke-m 2013/03/12

mahout

リンク

Mahoutでランダムフォレストを試してみた

「ビッグデータ」もう何度も耳にした用語ではないでしょうか？では、具体的にどのように活用すれば良いのでしょう。メディアプランの方法論で言えばDiscoveryやLook-alikeがありますがとにかくデータに触れてみて、分析をしてみる事が新たな発見の近道だと思います。ということでMahoutでRandom Forestを試してみました。 ■環境・Hadoop ・Pig ・Mahout-0.7 ■Random Forestとは多数の決定木を用いた集団学習により、他の分類(SVMなど)と比べ高精度の分類・予測（回帰）を実現する機械学習アルゴリズム。ようは多数の決定木を作成して、それぞれの決定木が出した答えを多数決して、最も支持が多かったクラスに分類する手法です。質問に「YES」か「NO」で答える診断テストが複数あって、その中で 1番多く当てはまった診断結果を最終の解にするイメ

daisuke-m 2013/03/02

mahout

リンク

CDH4でoozie使う:mahout - ritchiekotzen's blog

ちょっと苦戦・・・ mahoutが見てるライブラリをクラスパスに通す必要がある。まず、[workflow]/lib に入れるも、hueから実行すると、わざわざ最初に lib 配下を掃除してから「jar name」で指定した jar だけ入れて実行するという意味不明なクソ仕様らしい・・・（jar name って一つしか jar 指定できないようだし、[workflow]/lib には一つしかjar入れられない！？全部共有ライブラリに入れろと！？）というわけで共有ライブラリに入れようとしたのだが、oozie.libpath 直下に入れてもダメ、[oozie.libpath]/java に入れてもダメ。結局、[oozie.libpath]/oozie に入れるという強引な手を使った・・・ただ、動いたはいいが、mahout 君はエラーになっても例外出さずに終了するので、oozie さんがエ

daisuke-m 2013/02/13

mahout

リンク

mahout で MAHOUT_HEAPSIZE を設定しても hadoop 上で実行する場合には意味ない - ritchiekotzen's blog

mapreduce にジョブが入るような処理だけでなく、clusterdump とか、hadoop 環境で実行すると runjar で実行されるコマンドも。 hadoop のスクリプトで JAVA_HEAP_MAXが上書かれる。（MAHOUT_HEAPSIZE はhadoopを使わないローカル実行用のようだ。） mahout のジョブのHEAPサイズを変えたい場合は、mahout スクリプトの中で HADOOP_HEAPSIZE を設定するという手がある。 hadoop側で設定変更すると、hadoopのコマンドラインで実行する全てのジョブに効いてしまうが、mahout スクリプトで設定すれば、mahout から実行した時だけ変更できる。

daisuke-m 2013/02/07

mahout

リンク

mahout こんどは command line から動かなくなる・・・ - ritchiekotzen's blog

cloudra manager で「クライアント設定を展開」したら、なぜか HADOOP_CLASSPATH の mahout周りの設定が消えて、mahoutコマンドが動かなくなった。（java.lang.NoClassDefFoundError 出まくり・・・） HADOOP_CLASSPATH の設定は自分で入れたものじゃなくて、CMが最初に入れてくれてたものなのに・・・ /usr/lib/mahout/bin/mahout を修正 export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH} ↓ export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH}:$CLASSPATH これって絶対にバグだよね！

daisuke-m 2013/02/02

mahout

リンク

第1回　機械学習を実践する前の基礎知識 | gihyo.jp

みなさん、次のようなことができたらいいと思ったことはありませんか？「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」「サーバの負荷が高まるタイミングを事前に予測できたら……」一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリットかつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

daisuke-m 2013/01/29

mahout

リンク

suz-lab.com - suz lab リソースおよび情報

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

daisuke-m 2013/01/25

mahout
EMR

リンク

#hcj13w 午後4.Mahout - ひしだまの変更履歴

ひしだまＨＰの更新履歴。主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。 Hadoop Conference Japan 2013 Winterの午後4（会場：1B）『Hadoopで拓く新しい分析基盤の未来』のメモです。講演者は新日鉄住金ソリューションズ（NSSOL）の東英樹さん。 Mahout（マハート）の話。 Mahoutの名前は知っているけれども、機械学習ということ以外は何も知らなかったので、どういうものなのかを窺い知ることが出来た。 Mahoutでは機械学習のアルゴリズムが何種類か実装されており、利用者がどれを使うかを指定する。例として分類処理というものを扱っていた。トレーニングデータ（学習用データ）をMahout（分類アルゴリズム）に与えてモデルを作る。そしてテストデータ（分類対象データ）をモデルに適用して分類する。また、