タグ

java7と形態素解析に関するsadahのブックマーク (6)

  • 形態素解析器Senのセットアップ - techlog

    さてはて、Javaで楽しく形態素解析の時間がやってきました。 Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリです。 Sen - FrontPage ではでは、インストールして使ってみる。 Wikiにインストールガイドがあるけど、Eclipseでやったほうが楽だと思うので、Eclipse版のセットアップ方法を書いてみる。 前提条件 JDKがインストールされていること ActivePerlがインストールされていること Eclipseがインストールされていること ダウンロード まずはここからSenをダウンロードしてくる。 今回はsen-1.2.2.1.zipを使う。 インポート sen-1.2.2.1.zipを解凍して、Eclipseのworkspaceに置く。ディレクトリ名

    形態素解析器Senのセットアップ - techlog
    sadah
    sadah 2007/12/10
    形態素解析器Senのセットアップ
  • 形態素解析エンジンSenを使う - 不可視点

    ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。 無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。 形態素解析とは? 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。 工藤 拓[MeCab 汎用日形態素解析エンジン]http://www.jtpa.org/files/M

    形態素解析エンジンSenを使う - 不可視点
  • あぁ そうだった: Eclipseアーカイブ

    WSDLのバリデータなどが検証の過程でインターネットにアクセスするのでプロクシ設定が必要な環境においては、ウィンドウ→設定→インターネット→プロクシ設定で設定しておかなければならない。 これを忘れると赤い×がつく。つい、必要なjarが参照できていないのでは?という方向に向かいがち。 クライアントを作る分には手間も少なく、インタフェース仕様がサーバサイドで実際に使われているコードと対応するので齟齬が減らせるのではないかと思った。 java/Eclipse/Tomcat/axisの組み合わせに関して言えば、来やりたかったこと以外の部分で悩むことが多いんじゃないだろうか。java文化の特徴かも。 ASP.NETの場合、メソッドの属性にメタデータが書けるせいか手間が少ない。今後アノテーションに対応してくればツールを使う部分でハマるケースを回避できるかもしれない。 DLL HellよりもJAR H

  • 今日の渋沢: アマルティア・セン

    こんな人です。 で、Senの話。 ChasenTNG(現Mecab)を基にJavaで書かれたのがSen。 Javaで現在のソフトを作っている以上、Cで書かれたChasenを外部呼出ししてたんでは効率も悪いしちょっと怖い。ということでSenを使おうと思っている。 MecabもC++で書かれているもののSWINGによるバインディングがなされ、Javaからも利用可能とあるが、いまいちJNIを理解してないというか「JNIを理解してない」なんて迂闊にいえるかどうかも危ういので回避。 で、Sen。辞書のインストールに少し難儀。Ant1.5以降とPerl5.6以降が別途必要とは面倒。 Windows2000にて。Antは展開して、ANT_HOMEを環境変数で設定するだけで使えるようになる。ActivePerlは先代のPC利用者によってインストールされてた。辞書作成時はHPにも書いているがWindows

  • Sen - FrontPage

    Generated by Hiki 0.8.6 (2006-07-03). Powered by Ruby 1.8.5 (2006-08-25). Founded by ghfghgh564.

  • 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード候補が含まれるドキュメ

    形態素解析と検索APIとTF-IDFでキーワード抽出
  • 1