Jubatus: real-time and highly-scalable machine learning platform Real-time analytics relates to many critical applications with Big data. Machine learning is a set of computational algorithms for understanding data and predicting the future for accurate decision making. Thus both will be the key factors in Big Data analytics. Though Hadoop-based frameworks such as Mahout are available, there was n
Mac OS X にJubatus をインストールすべく、ソースからしこしこビルドしてたらカジュアルにコケて、 「フゥォォォォッォオオオオオオアアアアアア!!!!!!!!」という具合に唇を噛み締めていたら、id:katsyoshi さんから、 「それ、homebrew で出来るよ」 という大変に大変な大変素晴らしいアドバイスを頂いて、結果としてインストール出来たので、 「ビルドに費やした時間が水泡に帰す」という悲しみを再び繰り返さない為に、その手順をまとめます。 (僕の環境がMountain Lion だったのでタイトルではそれと表記していますが、多分Lion 等でも動くのではないでしょうか。) homebrew-jubatus を使う homebrew-jubatus (←素晴らしい!) https://github.com/ogawa/homebrew-jubatus 基本的にはREA
データ変換¶ 一般的に機械学習処理を行う場合、テキストなどの生の非定形データ(例えば HTML や Twitter のつぶやき情報など)を直接扱うことはできない。 こうしたデータは事前に特徴抽出というステップを経て、一般に特徴ベクトルと呼ばれる形式に変換される。 Jubatus における特徴ベクトルの中身は、文字列をキー、数値型を値とする key-value 型である。 この変換を行うことで、自然言語のデータ、画像データ、音声データなどの非定型の生データを統一的に扱うことができる。 Jubatus の特徴ベクトル変換器は、この特徴抽出処理を簡単な設定ファイルを書くことで柔軟にカスタマイズすることを可能にする。 概要¶ データ変換は「フィルター」と「特徴抽出」の 2 段階で行われる。 まず、フィルター処理によって、データを整形する。 この処理は、例えばHTMLテキストのタグを除去したり、学習
(報道発表資料) 2012年7月10日 データ分析アイデアコンテスト 「Jubatus Challenge Japan 2012」 の開催 ~ 日本発ビッグデータ分析オープンソースソフトウェア 「Jubatus(ユバタス)」 による分析コンテストの開催 ~ URL: http://www.facebook.com/JubatusChallenge2012 日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:鵜浦 博夫、以下NTT)は学生を対象としたデータ分析アイデアコンテスト「Jubatus Challenge Japan 2012」の参加者募集を本日より開始いたします。 本コンテストでは、NTTが2011年10月よりオープンソースソフトウェアとして公開しているビッグデータ*1のリアルタイム処理を可能とするJubatusを用い、データ分析のアイデアおよび分析内容を競って頂きます。本
第9回 自然言語処理勉強会で新機能の解説をしました¶ on 2012/02/28 13:17 by unno 先週末行われた 自然言語処理勉強会 (TokyoNLP) でJubatusに関するチュートリアルと、ver. 0.2.0の新機能リアルタイム分散レコメンデーションについて発表を行いました。 今回の話のテーマは2つです。前半は、Jubatusがどういうところを目指しているのかといったチュートリアル。後半が新機能のレコメンデーション、特に関連技術である転置インデックス、Locality Sensitive Hashing (LSH)、minhash、アンカーグラフについての簡単な説明を行いました。特にLSHとminhashに関しては、直感的にわかるような図を載せました。現状で公開されているのは転置インデックスとLSHだけですが、リアルタイムでデータがやってきて、直ちにレコメンドできるよ
先週の月曜日にお披露目会的なものがあったので行ってきた。 ちょいと前半戦は見れなかったので、肝心なところを見てない説もあり、その辺は割り引きたいが、まず印象まで。 Jubatus http://jubat.us/ 基本的なラインは、言ってみれば、分散CEP+機械学習というコンセプト。(ある程度の)リアルタイム性を重視して、データの使い捨てをベースにして、スケールアウト戦略を選択している。溜めてから学習するのではなく、ストリーミングしながらの学習というコンセプトに見える。アーキテクチャはN:Nな感じ。耐障害性はどこまで見ているのか?ってのはあるが、まずはスループットを優先したのと、ボトルネックが発生しないように割と気を使っているのはわかる。おそらくもっとも重視したのは「使い勝手」だろう。 まず、現状の日本のITでは機械学習は使いこなすだけ精一杯という中で、アーキテクチャや仕組みまで考えたフレ
NTTとPFIから、大規模データ分析基盤のJubatusがオープンソースとして公開されました。 http://preferred.jp/2011/10/jubatus.html ホームページのチュートリアルには、動作環境としてLinux2.6以降とありますが、Macでも動きましたので、MacPortsとしてまとめてみました。ただし、まだ動作検証をあまりしていないので、おかしなところがあるかもしれません。 なお、Debian Linuxでのインストール手順の記事も参考になりました。 Jubatusのインストールと若干の動作確認 - kuenishi's blog インストールにあたって必要なソフトがいくつもありますが、そのうちの pkgconfig, py-msgpack, msgpack, libzookeeper, ux-trie, mecab-utf8のportはすでにあり、今回新たに
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く