タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

mecabに関するkatsyoshiのブックマーク (1)

  • データ変換 — Jubatus

    データ変換¶ 一般的に機械学習処理を行う場合、テキストなどの生の非定形データ(例えば HTMLTwitter のつぶやき情報など)を直接扱うことはできない。 こうしたデータは事前に特徴抽出というステップを経て、一般に特徴ベクトルと呼ばれる形式に変換される。 Jubatus における特徴ベクトルの中身は、文字列をキー、数値型を値とする key-value 型である。 この変換を行うことで、自然言語のデータ、画像データ、音声データなどの非定型の生データを統一的に扱うことができる。 Jubatus の特徴ベクトル変換器は、この特徴抽出処理を簡単な設定ファイルを書くことで柔軟にカスタマイズすることを可能にする。 概要¶ データ変換は「フィルター」と「特徴抽出」の 2 段階で行われる。 まず、フィルター処理によって、データを整形する。 この処理は、例えばHTMLテキストのタグを除去したり、学習

    katsyoshi
    katsyoshi 2012/11/07
    kokoniattanoka!!
  • 1