タグ

ブックマーク / jubat.us (3)

  • データ変換 — Jubatus

    データ変換¶ 一般的に機械学習処理を行う場合、テキストなどの生の非定形データ(例えば HTMLTwitter のつぶやき情報など)を直接扱うことはできない。 こうしたデータは事前に特徴抽出というステップを経て、一般に特徴ベクトルと呼ばれる形式に変換される。 Jubatus における特徴ベクトルの中身は、文字列をキー、数値型を値とする key-value 型である。 この変換を行うことで、自然言語のデータ、画像データ、音声データなどの非定型の生データを統一的に扱うことができる。 Jubatus の特徴ベクトル変換器は、この特徴抽出処理を簡単な設定ファイルを書くことで柔軟にカスタマイズすることを可能にする。 概要¶ データ変換は「フィルター」と「特徴抽出」の 2 段階で行われる。 まず、フィルター処理によって、データを整形する。 この処理は、例えばHTMLテキストのタグを除去したり、学習

    katsyoshi
    katsyoshi 2012/11/07
    kokoniattanoka!!
  • 第9回 自然言語処理勉強会で新機能の解説をしました — Jubatus 0.2.0-beta documentation

    第9回 自然言語処理勉強会で新機能の解説をしました¶ on 2012/02/28 13:17 by unno 先週末行われた 自然言語処理勉強会 (TokyoNLP) でJubatusに関するチュートリアルと、ver. 0.2.0の新機能リアルタイム分散レコメンデーションについて発表を行いました。 今回の話のテーマは2つです。前半は、Jubatusがどういうところを目指しているのかといったチュートリアル。後半が新機能のレコメンデーション、特に関連技術である転置インデックス、Locality Sensitive Hashing (LSH)、minhash、アンカーグラフについての簡単な説明を行いました。特にLSHとminhashに関しては、直感的にわかるような図を載せました。現状で公開されているのは転置インデックスとLSHだけですが、リアルタイムでデータがやってきて、直ちにレコメンドできるよ

  • http://jubat.us/_static/tanakh/presen.html

  • 1