タグ

mahoutに関するdaisuke-mのブックマーク (80)

  • ビズリーチにおけるEMR(AWS)活用事例

    1. ON EMR活用事例 〜3日で出来たレコメンデーション〜 #singtacks SHIN Takeuchi BIZREACH Inc. - Co-Founder/CTO LUXA Inc. – Co-Founder/CTO Lei Hau’oli Co., Ltd. – Founder/CEO 2. プロフィール • 竹内 真(SHIN Takeuchi) – 所属企業 • 株式会社レイハウオリ 代表取締役CEO • 株式会社ビズリーチ 取締役CTO • 株式会社ルクサ CTO – 立ち上げ&運営サービス • 2009年04月 ビズリーチ • 2009年10月 ドラゴンQ • 2010年08月 ルクサ • 2012年10月 RegionUP • 2013年05月 codebreak; • 今後も新サービスが続々登場の予感。。。 #singtacks supported by2 3.

    ビズリーチにおけるEMR(AWS)活用事例
  • Mahoutイン・アクション - gotouma’s diary

    Mahoutイン・アクション 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman,伊東直子,真鍋加奈子,堀内孝彦,都元ダイスケ出版社/メーカー: オライリージャパン発売日: 2012/10/26メディア: 大型購入: 3人 クリック: 26回この商品を含むブログ (11件) を見る レコメンデーションの質は、データの質と量に大きく左右される。「ガーベッジ・イン・ガーベッジ・アウト(ゴミを入れればゴミが出てくる)」がこれほど当てはまるものはないと言っても良い。質の高いデータは良い結果を生み、その量が多ければ多いほど、さらに良い結果を得ることができる。 レコメンダのアルゴリズムには元来、データ集約性(data-intensive)がある。その計算では多くの情報を扱う。このため、実行性能はデータの量とその表現法に大きく影響を受ける。賢く選択さ

    Mahoutイン・アクション - gotouma’s diary
  • mahoutで用意されているanalyzerを調査してみた

    mahoutでコマンドラインで実行している マスタカです。 (´・ェ・)こんにつあー!!!!!!!!!!! 以下のコマンドでseq2sparseを使ってvectorファイルを作る hogehogeのパラメータを変えることで文書の切り方が変わるようです ./mahout/bin/mahout seq2sparse -i $input_dir -o $output_dir -ow -ng 2 -a hogehoge そんなわけで調査してみた。 いろんな場所で以下のように-aのパラメータを書かれているが org.apache.lucene.analysis.WhitespaceAnalyzer 実際はcore以下。 どこかでluceneのバージョン変わったんですかね。 org.apache.lucene.analysis.core.WhitespaceAnalyzer なのでここのクラスのAna

    mahoutで用意されているanalyzerを調査してみた
  • mahoutおさわり - ippeiの雑多メモ

    mahoutを使うっぽいのでお勉強。 結局は、機械学習系のライブラリ群ってことね。 ■準備 とりあえずVM環境構築。 Centos6.4をVM化 今回はいろいろ面倒なので簡単に入れられるCDHで入れることにする。 おっと、その前にjava jdkダウンロード->インストール 環境変数の設定 [root@localhost ~]# cat /etc/profile.d/java.sh export JAVA_HOME=/usr/java/jdk1.6.0_45 export PATH=$PATH:$JAVA_HOME/bin ■CDH版 Mahoutのインストール 普通にCDHをインストール。Managerはめんどくさそうだったのであきらめ。 1.cdh yumリポジトリをinstall http://www.cloudera.com/content/cloudera-content/clo

    mahoutおさわり - ippeiの雑多メモ
  • Mahout in Action読了 - Since 1975

  • Mahoutを実行できるまで – OpenGroove

    Hadoopエコシステムの一員で機会学習のフレームワーク、Mahout。この分野は数学的素養、統計的学問のバックアップがないと云々とよく言われるが…「そんなこと言ってたらいつまでたってもできないんだよ。INPOSSIBLE is just opinion なんだよ!」と勝手に自分を奮い立たせてお試し導入してみた。 が、例によって躓きまくる。何も考えずにHadoop Hacks内Mahout Hacksに従ってソースからインストールしたら動かない。英語のフォーラムに書いてあったことだの、あれこれ試しまくったが、そもそもマシン上のHadoopはCDH4。yum install mahout であっさりCDH版インストール、環境変数も何も設定しなくとも動きましたよ…。 オプションも何も指定せずにmahoutコマンドを打つと、help?らしきものが出力される。 $ mahout MAHOUT_LO

  • ITニュース|トピックス|Infoseekニュース

    ITランキング アイドルグループメンバー、彼氏とのツーショット“誤爆”を謝罪 運営は「彼氏と一定の距離」など処分

    ITニュース|トピックス|Infoseekニュース
  • Mahout:環境構築 - HiiHahWIKI - making some notes for... -

    Hadoopをセットアップ Mahout:環境構築 † Mahout in Actionを読んで勉強し始めました。 まずは環境構築から。 MahoutではMaven使えって書いてあったけど、使用するライブラリの依存関係が明確に見えないのがいやだったので(ちゃんと見れば見えるけどw)、必要な資材をDLして環境構築しました。 なお、Mahoutの最初の方ではHadoopはいらないけど、Hadoop上で実行するところまでやりたいので、Hadoopも合わせて構築してます。 ↑ Hadoopのセットアップ † HadoopはCDH3u6の0.20.2をインストールしてます。以下のURLよりtarballをDL。 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH3-Dow

  • Mahout:サンプル1:はじめてのレコメンド - HiiHahWIKI - making some notes for... -

    Mahout:環境構築 Mahout:サンプル1:はじめてのレコメンド † Mahoutを使った初めてのレコメンドです。 まあ、Mahoutに記載されているサンプルを実行してるだけですがw ※Mahoutにはimportするクラスとか書いてないけど、きっとサンプルソースはコーディングせずにDLして使ってね!ってことなんだよねw それとも、それぐらい解決できない人はそもそも対象外ですよ、ってことなのかなw ↑ サンプルコード † うだうだ長いですが、端的には DataModel?にデータをわせて Simirarityを計算させて Neighborhoodを計算させて そいつらを元にRecommenderを生成して RecommenderにレコメンドするユーザID(1)と提示(レコメンデーション)させるアイテム数(1)を渡しているってことです。 ■RecommenderIntro?.ja

  • 第3回 Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp

    HadoopとMahoutをインストールする Hadoopのバージョンに注意 前回はマーケットバスケット分析の理論編として、アソシエーション分析とアプリオリアルゴリズムについて解説しました。今回は実践編として、Mahoutが実装しているアプリオリアルゴリズムを改良したFP-Growthを用いて、実際にマーケットバスケット分析を行ってみましょう。 そのための準備として、まずMahoutとHadoopをインストールする必要がありますが、 その際1つ注意する点があります。現在のMahoutの最新バージョンである0.7は、利用するHadoopのバージョンが0.20系である必要があります。しかし、Apacheの公式サイトからはすでにHadoopのバージョン0.20をダウンロードすることはできません。 Hadoopのバージョン0.20をお持ちでない方は、Cloudera社のページからダウンロードするこ

    第3回 Mahoutの環境構築とFP-Growthによるマーケットバスケット分析 | gihyo.jp
  • Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO

    よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

    Amazon Elastic MapReduce入門 〜 Apache Mahoutでレコメンデーション! | DevelopersIO
  • mahout インストールメモ - skozawa's blog

    Apache Mahoutという機械学習ライブラリを触ってみたかったので、少し前にMahoutイン・アクションというを買った。とりあえず、java, maven, mahout, hadoopをインストールしてみた Java インストール yum install java-1.6.0-openjdk* JAVA_HOMEを設定 ~/.bashrcに JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk.x86_64 を追加 maven インストール wget http://ftp.kddilabs.jp/infosystems/apache/maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz tar -xzf apache-maven-3.0.4-bin.tar.gz su mv apache

    mahout インストールメモ - skozawa's blog
  • Mahoutでランダムフォレストを試してみた

    「ビッグデータ」もう何度も耳にした用語ではないでしょうか? では、具体的にどのように活用すれば良いのでしょう。 メディアプランの方法論で言えばDiscoveryやLook-alikeがありますが とにかくデータに触れてみて、分析をしてみる事が新たな発見の近道だと思います。 ということでMahoutでRandom Forestを試してみました。 ■環境 ・Hadoop ・Pig ・Mahout-0.7 ■Random Forestとは 多数の決定木を用いた集団学習により、他の分類(SVMなど)と比べ 高精度の分類・予測(回帰)を実現する機械学習アルゴリズム。 ようは多数の決定木を作成して、それぞれの決定木が出した答えを多数決して、 最も支持が多かったクラスに分類する手法です。 質問に「YES」か「NO」で答える診断テストが複数あって、その中で 1番多く当てはまった診断結果を最終の解にするイメ

    Mahoutでランダムフォレストを試してみた
  • CDH4でoozie使う:mahout - ritchiekotzen's blog

    ちょっと苦戦・・・ mahoutが見てるライブラリをクラスパスに通す必要がある。 まず、[workflow]/lib に入れるも、hueから実行すると、わざわざ最初に lib 配下を掃除してから「jar name」で指定した jar だけ入れて実行するという意味不明なクソ仕様らしい・・・(jar name って一つしか jar 指定できないようだし、[workflow]/lib には一つしかjar入れられない!?全部共有ライブラリに入れろと!?) というわけで共有ライブラリに入れようとしたのだが、oozie.libpath 直下に入れてもダメ、[oozie.libpath]/java に入れてもダメ。 結局、[oozie.libpath]/oozie に入れるという強引な手を使った・・・ ただ、動いたはいいが、mahout 君はエラーになっても例外出さずに終了するので、oozie さんがエ

    CDH4でoozie使う:mahout - ritchiekotzen's blog
  • mahout で MAHOUT_HEAPSIZE を設定しても hadoop 上で実行する場合には意味ない - ritchiekotzen's blog

    mapreduce にジョブが入るような処理だけでなく、clusterdump とか、hadoop 環境で実行すると runjar で実行されるコマンドも。 hadoop のスクリプトで JAVA_HEAP_MAXが上書かれる。 (MAHOUT_HEAPSIZE はhadoopを使わないローカル実行用のようだ。) mahout のジョブのHEAPサイズを変えたい場合は、mahout スクリプトの中で HADOOP_HEAPSIZE を設定するという手がある。 hadoop側で設定変更すると、hadoopのコマンドラインで実行する全てのジョブに効いてしまうが、mahout スクリプトで設定すれば、mahout から実行した時だけ変更できる。

    mahout で MAHOUT_HEAPSIZE を設定しても hadoop 上で実行する場合には意味ない - ritchiekotzen's blog
  • mahout こんどは command line から動かなくなる・・・ - ritchiekotzen's blog

    cloudra manager で「クライアント設定を展開」したら、なぜか HADOOP_CLASSPATH の mahout周りの設定が消えて、mahoutコマンドが動かなくなった。 (java.lang.NoClassDefFoundError 出まくり・・・) HADOOP_CLASSPATH の設定は自分で入れたものじゃなくて、CMが最初に入れてくれてたものなのに・・・ /usr/lib/mahout/bin/mahout を修正 export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH} ↓ export HADOOP_CLASSPATH=$MAHOUT_CONF_DIR:${HADOOP_CLASSPATH}:$CLASSPATH これって絶対にバグだよね!

    mahout こんどは command line から動かなくなる・・・ - ritchiekotzen's blog
  • 第1回 機械学習を実践する前の基礎知識 | gihyo.jp

    みなさん、次のようなことができたらいいと思ったことはありませんか? 「顧客ごとに、適したタイミングと内容で、DMを送信できたら……」 「CGM系サイトへの誹謗中傷なんかのスパム投稿を自動識別できたら……」 「サーバの負荷が高まるタイミングを事前に予測できたら……」 一見するとこれらは実現していることがまったく異なりますが、じつはある共通点があります。それは「データを分析し、その結果を活用している」という点です。 Data is Kingの考えから得られるメリット かつてAmazonに在籍していたRonny Kohaviは「Data is King at Amazon」と言い、データの重要性を説きました。事実、Amazonはユーザの購買履歴から商品のレコメンデーションを行い、ユーザのサイト内の遷移履歴やクリック率からサイト構造の改善を行うなど、データを徹底的に活用していることで知られています

    第1回 機械学習を実践する前の基礎知識 | gihyo.jp
  • suz-lab.com - suz lab リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

    suz-lab.com - suz lab リソースおよび情報
  • #hcj13w 午後4.Mahout - ひしだまの変更履歴

    ひしだまHPの更新履歴。 主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲーム音楽です。 Hadoop Conference Japan 2013 Winterの午後4(会場:1B)『Hadoopで拓く新しい分析基盤の未来』のメモです。 講演者は新日鉄住金ソリューションズ(NSSOL)の東 英樹さん。 Mahout(マハート)の話。 Mahoutの名前は知っているけれども、機械学習ということ以外は何も知らなかったので、どういうものなのかを窺い知ることが出来た。 Mahoutでは機械学習のアルゴリズムが何種類か実装されており、利用者がどれを使うかを指定する。 例として分類処理というものを扱っていた。 トレーニングデータ(学習用データ)をMahout(分類アルゴリズム)に与えてモデルを作る。 そしてテストデータ(分類対象データ)をモデルに適用して分類する。 また、

    #hcj13w 午後4.Mahout - ひしだまの変更履歴
  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ