サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Pixel 9
jubat.us
RPC エラーのハンドリング¶ Jubatus では、様々な理由で RPCエラーが発生します(このうち、とくによく遭遇するのが サーバが接続を自動的に切断したことで発生するタイムアウトエラーでしょう)。 ここでは RPCエラーハンドリングの推奨手順を記載します。 共通¶ RPCを行うと、例外が発生する可能性があります。 一部の言語では、例外が発生した場合でも自動的には接続が破棄されません。 リソース漏れのないアプリケーションを作成するためには、必ず例外を捕捉し、 明示的に接続を破棄するようにしてください。 これはクライアントオブジェクト利用終了時も同様です RPCで発生する例外は、メソッド名や型の不一致などアプリケーション層の問題に 起因するものと、タイムアウトや通信エラーなどトランスポート層以下の問題に 起因するものがあります。このうちトランスポート層の問題に起因するものは、 例外が発生
Jubatusの機械学習ラインナップと利用シーン¶ Jubatusによって行える機械学習とその利用シーンを紹介します。 ・ 多値分類(Classifier) 特徴ベクトル化された入力データを複数グループに分類します。 用途:Twitterカテゴリ分け、スパムメール判定など ・ 線形回帰(Regression) 入力データから出力データを推定します。 用途:株価予測、消費電力予測など ・ クラスタリング(Clustering) 入力データを似たグループの塊(クラスタ)に振り分けます。 用途:ユーザーセグメンテーション、トピック抽出など ・ クラスタ分析(Cluster Analysis) クラスタの構造変化などを分析します。 用途:セグメンテーション間の遷移分析、トピックの流行過程分析など ・ 統計分析(Stat) 時系列データのウィンドウ設定つき統計分析を行います。 用途:センサー監視、異
Tutorial¶ チュートリアルを始める前に、Jubatus および Jubatus Python クライアントをインストールする必要があります。この手順については Quick Start を参照してください。 Scenario¶ このチュートリアルでは、自然言語の分類に対する評価用データとして有名な News20 (20news-bydate.tar.gz) を利用します。 News20では、話題が20個のニュースグループに分かれており、人々は自分が適していると思ったニュースグループに投稿します。 News20は便宜上、80%の学習用データ(20news-bydate-train)と、20%の実験用データ(20news-bydata-test)の二種類に分けられています。 このチュートリアルプログラムの目的は、学習用データを(投稿先ニュースグループ, 投稿内容)のセットとして学習し、テ
Jubatus : オンライン機械学習向け分散処理フレームワーク¶ Jubatusは「分散したデータ」を「常に素早く」「深く分析」することを狙った分散基盤技術です。 Jubatusの名前の由来は、俊敏な動物であるチータの学術名からの命名で、「ユバタス」と読みます。株式会社Preferred NetworksとNTTソフトウェアイノベーションセンタが共同開発した、日本発のオープンソースプロダクトです。 最終的に全ての人にスケーラブルなオンライン機械学習フレームワークを提供することがJubatusの目標です。 Jubatus は以下の特徴を持ったオンライン機械学習向け分散処理フレームワークです。 オンライン機械学習ライブラリ: 多値分類、線形回帰、推薦(近傍探索)、グラフマイニング、異常検知、クラスタリング 特徴ベクトル変換器 (fv_converter): データの前処理と特徴抽出 フォルト
Jubatus : Distributed Online Machine Learning Framework¶ Jubatus is a distributed processing framework and streaming machine learning library. Jubatus includes these functionalities: Online Machine Learning Library: Classification, Regression, Recommendation (Nearest Neighbor Search), Graph Mining, Anomaly Detection, Clustering Feature Vector Converter (fv_converter): Data Preprocess and Feature E
Overview¶ 回帰問題は,入力 \(x\) に対応する特徴ベクトル \(\phi(x) \in R^m\) に対して,実数値の出力 \(y \in R\) を当てる問題である. 今回実装したのは,線形回帰モデルである. 線形回帰モデルでは,パラメータ \(w \in R^m\) を利用して,入力 \(x\) に対して \(\hat{y} = w^T \phi(x) \in R\) で予測する. 学習時には,分類問題同様,正解データセット \(\{(x_i, y_i)\}\) を利用して,正解データに対して正しく予測できるように重みベクトルを推定する. 典型的には1800年代に,予測値と実測値との自乗和を最小化させる最小二乗法が提案されている. この方法はバッチ処理になるため,今回の調査ではオンライン学習させる方法を利用した. Passive Aggressive¶ Passive A
Jubatus のインストール¶ Red Hat Enterprise Linux (RHEL) 6.2 以降 (64-bit) と Ubuntu Server 14.04 LTS / 16.04 LTS / 18.04 LTS (64-bit) を公式にサポートしています。 これらのシステムでは、Jubatus のすべてのコンポーネントをバイナリパッケージでインストールすることができます。 また、その他の Linux 環境 (32-bit を含む) と Mac OS X が試験的にサポートされています。 Red Hat Enterprise Linux 6.2 以降 (64-bit)¶ 以下のコマンドを実行して、Jubatus の Yum リポジトリをシステムに登録します。 // RHEL 6 の場合 $ sudo rpm -Uvh http://download.jubat.us/yu
Jubatus The document has moved here.
データ変換¶ 一般的に機械学習処理を行う場合、テキストなどの生の非定形データ(例えば HTML や Twitter のつぶやき情報など)を直接扱うことはできない。 こうしたデータは事前に特徴抽出というステップを経て、一般に特徴ベクトルと呼ばれる形式に変換される。 Jubatus における特徴ベクトルの中身は、文字列をキー、数値型を値とする key-value 型である。 この変換を行うことで、自然言語のデータ、画像データ、音声データなどの非定型の生データを統一的に扱うことができる。 Jubatus の特徴ベクトル変換器は、この特徴抽出処理を簡単な設定ファイルを書くことで柔軟にカスタマイズすることを可能にする。 概要¶ データ変換は「フィルター」と「特徴抽出」の 2 段階で行われる。 まず、フィルター処理によって、データを整形する。 この処理は、例えばHTMLテキストのタグを除去したり、学習
第9回 自然言語処理勉強会で新機能の解説をしました¶ on 2012/02/28 13:17 by unno 先週末行われた 自然言語処理勉強会 (TokyoNLP) でJubatusに関するチュートリアルと、ver. 0.2.0の新機能リアルタイム分散レコメンデーションについて発表を行いました。 今回の話のテーマは2つです。前半は、Jubatusがどういうところを目指しているのかといったチュートリアル。後半が新機能のレコメンデーション、特に関連技術である転置インデックス、Locality Sensitive Hashing (LSH)、minhash、アンカーグラフについての簡単な説明を行いました。特にLSHとminhashに関しては、直感的にわかるような図を載せました。現状で公開されているのは転置インデックスとLSHだけですが、リアルタイムでデータがやってきて、直ちにレコメンドできるよ
Jubatus 0.2.0 をリリースしました¶ on 2012/02/17 12:03 by kuenishi 本日、Jubatus 0.2.0をリリースしました。これにあわせて、Webサイト( http://jubat.us )もいくつかコンテンツを追加しました。VCSはGitHub, BTSは当面はGitHub issuesを利用していきたいと思っています。 昨年の0.1.0のリリース以来、いくつかPull Requestをいただいたりしてはいたものの、開発チームの活動をパブリックにしにくい状況が続いておりました。本日のリリースでおよその機能が揃い、分散処理フレームワークと機械学習アルゴリズムの最低限の分離をすることができました。これによって、下回りの改善と機械学習の実装を同期しなくてよくなり、タイミングを合わせることのオーバーヘッドがなくなり、開発のスピードアップをしていきます。
Jubatus English Japanese
This tutorial introduces the basic usage of the Jubatus framework. Overview and Scenario¶ This tutorial made up of following four sections: Setup a single process Jubatus Server install Jubatus How to use Jubatus Prepairing dataset Set configure Train/Classify Setup multi process Jubatus Server Setup ZooKeeper jubakeeper run two process with local_mixture Setup Jubatus in cluster jubavisor(Process
このページを最初にブックマークしてみませんか?
『Jubatus : Distributed Online Machine Learning Framework¶』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く