タグ

Mahoutに関するdaisuke-mのブックマーク (80)

  • 文書をクラスタリングする | 774::Blog

    人間、生きてるといろんな情報と出会い、それらをクラスタリングしたくなるのがこの世の常である。機械学習ライブラリは一から自分で実装するよりはすでに実績のあるものを利用するのが良いだろう。まずは Mahout を使ってみる。 テキストコーパスの取得 まずはテキストコーパスを用意する。実験なので無難に青空文庫とかでもいいのだけど、いますぐ分析したい文書があるならそれを使えば良い。君は日頃収集しているソーシャルネットワークの情報を使ってもいいし、運営しているサービスに寄せられたユーザーの声を利用してもいい。 ちなみにいい話判定器に格納されたいい話を使うなんてのも一興である。 形態素解析 我々は日人である。日語文書は英語のように単語どうしが空白で区切られていない。そこで形態素解析エンジンを利用する必要があるし、ここではいわゆる分かち書きをする。 シェルスクリプトでの単純な例。 for file

  • Mahoutのseqdirectoryとseq2sparseを使って文書クラスタリング | mwSoft

    概要 Mahoutのexamples/binの下には、cluster-reuters.shというロイターの記事をクラスタリングする処理を実演してくれるシェルがいる。 このシェルでは、seqdirectoryとseq2sparseという2つのコマンドを使って、テキスト文書をVectorに変換している。 これを参考にして、青空文庫から取ってきたいくつかの文書をクラスタリングして遊んでみる。 Mahoutのバージョンは0.7。 bin/mahout seqdirectoryは、テキストファイルの入ったディレクトリから、シーケンスファイルを生成する。 とりあえず下記のようなテキストファイルを適当なディレクトリ(仮に/tmp/tekitou/sample.txtとする)に入れて、実行してみる。 我輩はプログラマである。 仕事はしていない。 ファイルはHDFSに置く。 $ hadoop fs -put

  • Mahoutではじめるクラスタリング処理:距離測度の概要 : おのうえのブログ

    その1:クラスタリングの概要 最近は平日、休日ともに飲み会続きで更新さぼってた…(いまも呑んでるけど) Mahoutを使うに当たり、統計学的な知識がゼロだとやっぱりきつい。。 というわけで今回は距離測度について調べてみた クラスタリングの処理(に限らず統計とかは大体そうなのかもしれないけれど)をプログラミングで実行するのには、分析対象のデータをXY平面上の点※の集合として考えるとわかりやすい ※実際に対象のデータを分析するのには、対象の文章データを数値化しないとXY平面上の点として処理できないけれども、それはまた別の機会にします 距離測度の計算は実際にはDistanceMeasureインターフェースを実装したクラスで行う 1、ユークリッド距離 普段生活しているなかで一番よく使う距離の測定方法。つまり、離れた二点があったとして、その距離を定規(メジャーでもなんでもいいけど)を使って測って出し

    Mahoutではじめるクラスタリング処理:距離測度の概要 : おのうえのブログ
  • Mahout : おのうえのブログ

    その1:クラスタリングの概要 最近は平日、休日ともに飲み会続きで更新さぼってた…(いまも呑んでるけど) Mahoutを使うに当たり、統計学的な知識がゼロだとやっぱりきつい。。 というわけで今回は距離測度について調べてみた クラスタリングの処理(に限らず統計とかは大体そうなのかもしれないけれど)をプログラミングで実行するのには、分析対象のデータをXY平面上の点※の集合として考えるとわかりやすい ※実際に対象のデータを分析するのには、対象の文章データを数値化しないとXY平面上の点として処理できないけれども、それはまた別の機会にします 距離測度の計算は実際にはDistanceMeasureインターフェースを実装したクラスで行う 1、ユークリッド距離 普段生活しているなかで一番よく使う距離の測定方法。つまり、離れた二点があったとして、その距離を定規(メジャーでもなんでもいいけど)を使って測って出し

    Mahout : おのうえのブログ
  • ビッグデータを用いた機械学習 Apache Mahoutとは

    Mahoutの勉強会に行くことになったのですが、 Mahoutって何っ、てことでちょっと調べてみました。 ———- 「Apache Mahout」(以下、Mahout)とは、機械学習を行うためのライブラリです。 機械学習とは、一定のデータをプログラムに学習させて、プログラムに判断が行えるようにするという試みで、一種のAI(人口知能)のようなものです。プログラムの判断では、データに潜むパターンや規則性を表す「モデル」を自動的に構築させます。 機会学習により、以下のようなことが可能になります。 レコメンド(ユーザの商品の類似度を学習) 迷惑メール判定(過去に迷惑メールとされたもののパターンを学習) ユーザーの行動分析(望ましい/望ましく無い結果にいたる行動パターンを学習) 画像処理 「Mahout」は、Hadoopのスケーラビリティを生かし、ビッグデータを用いた機械学習を可能にするライブラ

  • 品川海苔は伊豆の磯餅» Blog Archive » Mahoutセットアップ

    前記事に引き続き、日連続更新であります! さて、Mahoutをインストールしましょう。 MahoutはHadoop上で動作する機械学習フレームワークです(たぶん)。 数年前に見つけて以来ずっと興味があったのですがそもそもHadoopがよくわからないレベルだったので ずっと触れずにいました。 という訳で初挑戦です!Let’s Try! Mahoutのダウンロードと展開 記事執筆時点でのMahoutの最新バージョンは、0.7です。 公式サイトより、 mahout-distribution-0.7.tar.gzをダウンロードしてきました。 Hadoopと違ってこちらはrpmは用意されていないようです。 # pwd /mahout # ls mahout-distribution-0.7.tar.gz # tar zxf mahout-distribution-0.7.tar.gz

  • Apache Mahout お手軽レコメンド

    SQL Server 2017 Machine Learning Services (CLR-H in TOKYO #13)Tomoyuki Oota

    Apache Mahout お手軽レコメンド
  • Mahoutを使ったNaiveBayesによる機械学習 - Y's note

    入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見る BigDataでの機械学習 膨大なデータに対して機械学習を行いたい時にlocalの端末一台では処理の時間が掛かりすぎてしまいます。学習、モデル作成、予測のそれぞれの処理を高速で行うための一つのSolutionがHadoop上で機械学習をしてしまうことだと思います。Hadoop上で機械学習をするための便利なライブラリとしてJAVAベースのMahoutがあります。この記事ではMahoutによるNaiveBayes分類学習を

    Mahoutを使ったNaiveBayesによる機械学習 - Y's note
  • Mahoutイン・アクション

    Apacheプロジェクトが提供するオープンソースの機械学習ライブラリ、Mahoutについて包括的に解説する書籍です。協調フィルタリングによるレコメンデーションについて、オンメモリ実装からHadoopベースの並列実装までを説明することで、分散環境における機械学習アルゴリズムの全体像を明らかにします。また、データの中で似た者同士をクラスタにグループ化するクラスタリングアルゴリズムに触れ、さらに分類器の構築、サンプルデータを使って「学習」させる方法を説明します。実装例を示しながら実践的に解説する書は、Mahoutをマスターしたいエンジニア必携の一冊です。 訳者による日語版サポートページ 序文 訳者まえがき はじめに 1章 Apache Mahoutへようこそ 1.1 Mahoutものがたり 1.2 Mahoutが扱う機械学習の分野 1.2.1 レコメンデーションエンジン 1.2.2 クラスタ

    Mahoutイン・アクション
  • Mahoutでnaive bayesしてみる | mwSoft

    概要 なんだかナイーブな気持ちになったので、Mahoutのnaive bayesを使って心を落ち着けようとしてみた。 バージョンは0.7。コマンドの引数はバージョンによってけっこう違うので注意。 テストデータを用意する Wikipediaから野球、サッカー、F1の記事を各10個ずつ、計30記事を取ってきて、3つのジャンルでclassifyできるよう教育してみる。 コマンドから実行する場合、ディレクトリ名 = ラベルとして扱われる。ので、下記のようにカテゴリごとにディレクトリを分けてファイルを配置しておく。 |-- baseball | |-- buffaloes | |-- dragons | (中略) | |-- swallows | `-- tigers |-- f1 | |-- cenna | |-- europeangp | (中略) | |-- spaingp | `-- wil

  • seibase

    http://shufumichi.blogspot.jp/2014/10/blog-post_10.html この抗がん剤は下痢以外の副作用があまりないので、がんばれそうです。欲も体重もじわじわと戻ってきています。 待ち遠しい新治療法ーBNCT http://shufumichi.blogspot.jp/2014/08/bnct.html 原子炉などからの中性子とガン組織に取り込まれた中性子との反応断面積が大きい元素との核反応によって発生する粒子放射線によって、選択的にガン細胞を殺すという原理に基づくガン治療法(放射線療法)である。この治療法に用いられる中性子増感元素としては10B、157Gd等が考えられているが、現在はホウ素のみが用いられており、この場合特にホウ素中性子捕捉療法(ほうそちゅうせいしほそくりょうほう、英 Boron Neutron Capture Therapy、BNC

  • 機械学習の特集

    どうしてもレコマンドしてみたくて… という人は読んでみるとよいかと思います。 -機械学習とは -Mahoutの歴史 このあたりは興味を持った。 実はこのあたり、もっと学生時代に深めたかった気はする。 書いてある通りに手を動かしました。 ・Eclipseのインストール…もともとしてあった ・Mavenのインストール(3.0.4)…とりあえず書いてある通りに。 ・Mahoutのインストール←☆つまづきました。 mahout-distribution-0.7 kitsu$ mvn eclipse:eclipse [INFO] Scanning for projects... [INFO] [INFO] ------------------------------------------------------------------------ [INFO] Building Maven Stu

  • mongo-hadoop & mahout でドキュメントのクラスタリング(関連付け) - 中年engineerの独り言 - crumbjp

    Solrが結構困ったちゃん 全文検索エンジンSolrは便利なのだが、どうもAvailavilityに問題がある様に思う。 いや、環境がPoorなのもあるのだけれども GCも、PV負荷も、Indexing関連処理も して無い時間帯なのにクエストが刺さる事が多々ある! 今までは色々なキャッシュを駆使して凌いで来たけど、どうにもこうにも限界なようだ・・・ Solr クエリキャッシュ →クエリの結果を一定時間キャッシュする Solr フィルタキャッシュ →別クエリでも共有できる部分は共有する Memcached →そもそもSolrにクエリーを投げない! 精度の問題もあったりするので、コレを期にHadoopで自前で処理してしまおうかと思った。 登場人物 //www.mongodb.org/">MongoDB:勢いのある(OSS)分散DB。一貫性と分散性(CPシステム)に優れる。 //code.goo

    mongo-hadoop & mahout でドキュメントのクラスタリング(関連付け) - 中年engineerの独り言 - crumbjp
  • MahoutのIDMigratorを使ってみる | mwSoft

    概要 MahoutはいろんなものをlongのIDで扱う。ので、文字列をIDに変換しないといけないシーンにけっこう出くわす。 手軽にIDと文字列を変換できる機能に、IDMigratorがある。ファイルとかDBから文字列とIDの対応表を生成してくれる機能。 変換にはハッシュ値を使用し、衝突したら仕方ないという男らしい仕様を採用している。JavaDocには「最悪、違うユーザのレコメン出しちゃうこともあるかもね」と書かれている。 でも、大丈夫。64bitでぶつかってしまうような運命の2人なら、きっと趣味も一緒のはずだから。 MemoryIDMigrator とりあえず手軽に使えるところで、MemoryIDMigratorを使ってみる。Collectionに入った文字列からIDへの変換表を生成してくれる。 List<String> list = Arrays.asList( "田中", "佐藤",

  • Mahoutを開発している人たち

    Mahout関連のまとめはこちら Software DesignのMahout関連のまとめはこちら Mahoutを調べるにあたって「誰が開発をしているんだろう」と気になったので調べてみました。はじめに、Mahoutの大まかな系譜を紹介します。 歴史的に関係するプロダクトは、Lucene/Solr/Nutchなどがありますが、やはりHadoopとの関連性が大きいと思います。開発者の流れとしては、Luceneの開発者が合流していることが分かります。ただ、Mahoutは、複数の開発者が中心となって立ち上げているので、彼らの経歴を見てみたいと思います。 ApacheCon Europe08 Mahout -Bringing Machine Learning to Industrial Strength- http://apachecon.com/eu2008/program/materials/m

    Mahoutを開発している人たち
  • Mahoutメモ | mwSoft

    Eclipse上で動かしたり、インストールしてレコメンドコマンドを叩いてみたり 単純なデータでK-Meansを実行してみた Canopyの結果を初期値としてK-Meansを実行してみた コマンドを叩いて青空文庫小説のいくつかをクラスタリングしてみる Naive Bayesを使ってWikipediaの記事をカテゴリ分けしてみる シーケンスファイルの内容を表示するコマンド、seqdumperの使い方 文字列とlongのIDの変換を行う緩い機能、IDMigratorについて Mahout備え付けのNGramsクラスを使ってみたけど日語向けじゃなかった LuceneのインデックスからVectorを作るlucene.vectorを叩いてみる

  • AppEngineでMahoutを使ったレコメンド機能を作ってみた - Orfeon Blog

    Apache Mahoutは様々な機械学習・データマイニング手法を、Hadoopを利用してスケーラブルに取り扱うことができるライブラリなのですが、ちょっとしたレコメンド機能の開発にも手軽に利用することができます。今回は自分用の備忘録も兼ねてAppEngine/Javaでの利用実例を紹介してみたいと思います。 やったこと 先日リリースした漫画読書管理Webサービス「コミックライブラリー(コミ蔵)」 で漫画の関連シリーズのレコメンド機能を作成しました。Amazonとかでよくある商品の関連アイテムのレコメンドです。利用するユースケースやデータ量にもよりますが、意外と簡単にAppEngine上のサービスで推薦機能を使えるようになりました。 実行構成 レコメンド機能の実行の流れは下記の通り。 レコメンド機能を実装したServletをcronで1週間に1回、Backend Instance上で実行。

  • Mahout in Action Chapter 3 Summary - Tech Log - s21g

    Mahout in ActionのChapter3についての自分の理解をメモ。 嗜好データの表現 Preferenceオブジェクト Preferenceオブジェクトは最も基的な概念で、一つのユーザID、アイテムID、嗜好値で嗜好性を表す 一つのオブジェクトが一人のユーザの一つのアイテムに対する嗜好性を表している 一つのGenericPreferenceは20バイトの有用なデータを保持しており、8バイトのユーザID(Javaのlong型)、8バイトのアイテムID(long)、4バイトの嗜好値(float)から成っている オブジェクトが存在するためには上記以外に28バイトものオーバーヘッドがかかる PreferenceArrayと実装 PreferenceArrayはPreferenceのコレクションを配列のように扱うためのインタフェース 例としてGenericUserPreferenceA

  • Jungle Java - Mahout 関連情報メモ

    Mahout 関連情報メモ Posted in クラウドコンピューティング (RSS), データマイニング (RSS) 機械学習ライブラリ 「Apache Mahout」 の関連情報をメモ。φ(..) 関連情報 ・InfoQ: Apache Mahout: 拡張性の高い機械学習アルゴリズム ・Apache Mahout の紹介 ・Apache Mahout: 万人のためのスケーラブルな機械学習 ・試すのが難しい―機械学習の常識はMahoutで変わる - @IT ・Mahout JP ・【第32回】「GMOとくとくショップ」でのレコメンド利用について(前編) - MahoutとHadoopを使ったレコメンデーション - ・【第32回】「GMOとくとくショップ」でのレコメンド利用について(後編) - MahoutとHadoopを使ったレコメンデーション - ・Mahout の開発環境を Mav

    Jungle Java - Mahout 関連情報メモ
  • 機械学習ライブラリ:Apache Mahoutとは – IOUGセミナーより - | Insight Technology, Inc.

    まずはじめに、先日開催されたデータウェアハウス&CRM Expoにお越しいただきましてありがとうございました。私は主にInsight Qube上でHadoopを動かすデモを担当していたのですが、Hadoopを速くするというテーマに興味を持っていただいたお客様が多く、『Big Data』の盛り上がりをひしひしと感じた3日間でした。 ところで、せっかくHadoopが高速に動いたとしても、その上でどのような処理ができるのかがわからなくては、仏を作って魂入れず、宝の持ち腐れとなってしまいます。先月参加したIOUGでは、ちょうどHadoopを使った『Big Data』の活用方法についていくつかセミナーが開かれていました。今回はその中で、私が特に気になった「Apache Mahout」を使った機械学習についてのセミナー内容を紹介します。 機械学習とは 機械学習歴史は古く、紀元前までさかのぼることが