タグ

形態素解析に関するr_onodrのブックマーク (4)

  • RakutenMAによる形態素解析入門 - あんちべ!

    概要 稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。 また、稿ははてな×PC工房との連動企画の補足をするべく書きました。 「あんちべさんと一緒に Rakuten MA で形態素解析はてなニュース連動企画 第二弾! : パソコン工房 パソコン工房のPCで遊ぼう第2弾! あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモ エディタ判定器 :パソコン工房 【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに 近年、twitterやFacebookなどのSNSAmazonのレビューなどから得ら

    RakutenMAによる形態素解析入門 - あんちべ!
  • Igo-pythonをGAEでも動かす。 - Keep on moving

    あいかわらずIgoをいじって遊ばせていただいています。 Igoを使っていて感じたことをかるくまとめておきます。 Igoの辞書変換時の注意点 IgoではMecab形式のファイルをいったんIgoを使って変換する必要がある。 ドキュメントには書いてないけど以下の場合には辞書の変換に失敗する。 はまったのでメモ的にまとめておきます。 辞書に"(ダブルクォート)を含む場合、変換parserのエラーになる。(今回は取り除くことで可能) Mecabの辞書内で出現頻度をスコアで指定するんだけど、Igo側はここをIntegerで解釈しているので,Integerの範囲を超えた値にすると変換エラーになる。 辞書の変換には思った以上にメモリをいます。具体的にはスタックオーバーフローエラーがおこります。辞書のファイルサイズが大きい場合にはスタック領域をなるべく増やして実行しましょう。例えば、NAIST Japan

    Igo-pythonをGAEでも動かす。 - Keep on moving
  • 形態素解析器IgoのPython版作った

    いろんなメモです。おもにプログラミング関係。 a memorandum. most of all contents are related to programming. Java(とCL)で書かれた形態素解析器であるIgoPythonにほぼそのまま移植しました。 Java版で作った辞書がそのまま使えるようにしたので、辞書を作る部分は(まだ)移植してません。 mmapしてるのでGAEでは動きません。すぐ取りかかる予定です。 またGAE版の辞書はBigEndianなのでそこらへんも対応する予定です。 https://code.launchpad.net/~hideaki-t/+junk/igo-pyに置きました。 簡単なテストしかしてません。問題があったら教えてください! 簡単なサンプル # coding: utf-8 import igo.Tagger t = igo.Tagger.Ta

    形態素解析器IgoのPython版作った
  • テキストマイニングの基礎

    〜準備編〜 まずRをインストールしておくこと(不慣れな人は丁寧に解説したRインストールのページを参照のこと)。 Rでテキストマイニングをするために石田基広氏のウェブサイトよりRMeCab_0.90.zipというファイルをダウンロードする。ファイル名は変更されるかもしれないし、0.90というバージョンも変わるかもしれないので最新のものをダウンロードすること。なおダウンロードされた.zipファイル(圧縮されたファイル)は解凍する必要がなく、.zipファイルをそのまま適当なディレクトリ(フォルダ)に置いておけばよい。 Rのワークディレクトリ(getwd()とコマンドすれば確認できる)に、例えばzip_packagesという名前のフォルダを作成しておき、その中に保存しておくと分かりやすいだろう。 〜R上での準備〜 R上でRMeCabを利用するためには [パッケージ] -> [ローカルにあるzip

  • 1