タグ

ブックマーク / jetbead.hatenablog.com (2)

  • 単語の数学的表現メモ - Negative/Positive Thinking

    はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

    単語の数学的表現メモ - Negative/Positive Thinking
  • liblinearで文書分類を試す - Negative/Positive Thinking

    はじめに データ整形やスケール調整、パラメータの探索を行うことでどれだけ変わるか気になったので、liblinearを使って文書分類を試してみる。 liblinear http://www.csie.ntu.edu.tw/~cjlin/liblinear/ version 1.93を利用 使用するデータ http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html 「news20」を使用する 20クラス 学習:15935データ、テスト:3993データ 素性数:学習62061、テスト62060 news20.bz2とnews20.t.bz2は、単語IDとTF値のペアっぽい #学習データの各クラスのドキュメント数 $ cut -f1 -d" " news20 | sort |uniq -c | sort -k2 -n

    liblinearで文書分類を試す - Negative/Positive Thinking
  • 1