タグ

2008年4月1日のブックマーク (5件)

  • テキスト処理にWekaを使う(その2:文書セットをARFFに変換する) - シリコンの谷のゾンビ

    前回:テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) 昨日やらなかったことがとても簡単なことに気がついたので,メモ. Weka3.5.xからTextDirectoryToArffがTextDirectoryLoaderに変更になったので,注意.今後はそちらになると思われるので,TextDirectoryLoaderについて解説. 文書データの用意 クラスごとにディレクトリを作成し,その下にそのクラスの各インスタンスをそれぞれテキストデータで用意する.ファイル名はこだわらなくてよい.ファイル名を特徴にするオプションもあるので,属性に使用するのであればこだわってください. ひとつのファイルがひとつのインスタンスに対応する.今回はテストのため,前回つかったARFFを作成するようなデータセットを用意する.spamクラスのテキストファイル5つと,hamクラスのテキストフ

    テキスト処理にWekaを使う(その2:文書セットをARFFに変換する) - シリコンの谷のゾンビ
  • テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ

    テキスト分類課題などでは,文書をTF-IDF重み付けしたbag-of-wordsで表現することが多い.これをベースラインにするため,さくっとこの処理をしたい.卒論やM1のときは,この処理をわざわざ手で書いたのだが,バグが出たら大変だし,なにより面倒くさい. 論文では,最近流行りのLuceneを使っている人もいるけれど,WekaのStringToWordVectorもなかなか高性能.TFIDF重みづけまでの処理をやってみる.Luceneの方が汎用性があるから便利そうなんだけれど,とりあえずテキスト分類課題に使いたいので. 前提知識 かなり自分用メモ(+α)なので,説明不足な部分があります.あと,基的にCUIベースで話を進めます.最後の方に気がついたのですが,GUIとずれがありますね.そこらへんは,まぁ,適当に. Wekaについては,日語情報があるにはあるのですが最近更新されていないので,

    テキスト処理にWekaを使う(その1:文書のトークン化とTFIDF重みづけ) - シリコンの谷のゾンビ
  • Weka 3 - Data Mining with Open Source Machine Learning Software in Java

    Weka is a collection of machine learning algorithms for data mining tasks. It contains tools for data preparation, classification, regression, clustering, association rules mining, and visualization. Found only on the islands of New Zealand, the Weka is a flightless bird with an inquisitive nature. The name is pronounced like this, and the bird sounds like this. Weka is open source software issued

    yuuyuujy
    yuuyuujy 2008/04/01
    weka 本家(English)
  • はじめてのweka勉強会 −修正版− - sleeping vote

    ゼミ用資料です。 今回は、GUIで遊ぶ70%、プログラムを書いて理解する30%です。おきらくに、楽しんでやっていきましょう。 勉強会の資料 http://groups.google.com/group/cica25th/files 00.wekaを楽しむ前に wekaはJavaで作られています。それを動かすために、JRE(Java Runtime Environment)が必要となります。 (jre1.4以上必須) パスを通すなどの作業がいるので、詳しくは周りのJavaに強い方か、Google先生に聞いてみましょう。 0.wekaって何? Wekaとはオープンソースのデータマイニングツールで、世界中の研究者に愛用されているツールだ。 (中略) Wekaにはデータマイニングのために必要なアルゴリズムが多数収録されており、データに対する前処理、アルゴリズムの適用、結果の視覚化といった作業をGU

    はじめてのweka勉強会 −修正版− - sleeping vote
    yuuyuujy
    yuuyuujy 2008/04/01
    wekaを利用するための参考プログラムなどがある。
  • Wekaの日本語情報

    Wekaの日語情報 データマイニングツールWekaに関する日語による情報.データマイニングツールとしての使い方なども紹介していきます. weka-jpでは,データマイニングツールWeka*の使い方に関する日語での情報を提供していきます. Wekaはニュージーランドのワイカト大学において開発されたデータマイニングツールで,分類学習やクラスタリング,相関ルール生成のみならず,データの前処理や視覚化に関する機能も含む統合型ツールです. Wekaに実装された機械学習やクラスタリングのアルゴリズムは他のツールとAPIやCLIを通して利用可能であるため,多くのツールでライブラリとして利用されています. サイトでは,利用方法に関する解説記事を作成し,公開する予定です. 記事の作成に関して,より多くの方にご協力を頂きたいと考えております. 更新履歴 2023年11月1日:Weka関連リンクのページ

    Wekaの日本語情報