タグ

ResearchとPythonに関するKshi_Kshiのブックマーク (5)

  • PythonでLIBSVMを使う

    導入方法 1.ここからLIBSVMのzipファイルもしくはtar.gzファイルをダウンロードし適当なディレクトリに解凍。(最新版3.1) 2.解凍したフォルダに移動し、makeコマンド実行。以下のファイルができるはず。 svm.o svm-train.exe svm-predict.exe svm-scale.exe 3.解凍したフォルダの中のpythonフォルダに移動し、makeコマンド実行。以下のファイルができるはず。 libsvm.so.2 使用例 適当に学習させてみる. svmtest.py from svm import * from svmutil import * prob = svm_problem([1,-1], [[1,0,1], [-1,0,-1]]) #訓練データ param = svm_parameter('-t 1 -c 3') #SVMのパラメータ設定 m =

    Kshi_Kshi
    Kshi_Kshi 2012/02/14
    libsvm パラメータの解説
  • Holy (K)night [Python] python から SVM を使うときのメモ [SVM]

    2024年08月 / 07月≪ 12345678910111213141516171819202122232425262728293031≫09月 python から libsvm-python を使う環境を作るときのメモ。 【More・・・】 1.ダウンロード。 ここから libsvm-python をダウンロード. 2.make。 ダウンロードしたら解凍ディレクトリで make. その下にある python ディレクトリの中でも make. 3. libsvm/python ディレクトリ内の svm.py と svmutil.py の2つをインポートして python から使用。 ・使い方 学習データの登録: problem = svm_problem([train_label1, train_label2, ...], [train_data1, train_data2, ...])

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • PythonでLDAを実装してみる

    Latent Dirichlet Allocationはテキストのような不連続データのための生成的確率モデル。入力はドキュメント。出力はドキュメントを特徴づける何か(tf-idfみたいなもん)。 基的なアイディアは、あるドキュメントは潜在的ないくつかのトピックが混合していて、それぞれのトピックは語の分布で特徴づけられている、ということ。 論文[1]ではαとβというパラメータを用いてドキュメントが以下のように生成されると仮定している。 ドキュメントのトピックの分布θがディリクレ分布Dir(α)に基づいて選ばれる。 ドキュメントの語数N個になるまで以下を繰り返す。 トピックznが多項分布Mult(θ)に基づいて選ばれる。 単語wnが確率p(wn|zn,β)で選ばれる。 ただし、トピックzの数をk個、単語wの種類をV個とすると、パラメータαはk次元のベクトル、βはk x V次元の行列でβij=

    Kshi_Kshi
    Kshi_Kshi 2011/12/15
    LDAを実装してみた
  • Latent Dirichlet Allocations の Python 実装 - 木曜不足

    LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple音楽apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。 結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」

    Latent Dirichlet Allocations の Python 実装 - 木曜不足
    Kshi_Kshi
    Kshi_Kshi 2011/12/15
    LDAを実装してみた
  • 1