タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*nlpと*研究に関するarata3da4のブックマーク (4)

  • 日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air in Shinagawa Seaside

    Senとは Sen はJAVAで書かれた日形態素解析器です。 辞書を使って日語の文章をトークナイズします。 下は「Sen はJAVAで書かれた日形態素解析器です」をSenでトークナイズした例です。 Solrに組み込むことで、日語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。 これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。 Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。 ここでは文字コードをutf-8で統一してい

    日本語形態素解析器Senを導入する その1 Senのインストール - Solr, Python, MacBook Air in Shinagawa Seaside
  • lucene-gosenのant build時に使用する辞書ファイルの変更

    gosenはjarに辞書同梱なのに」という話はありますが、ソース一式落としてビルドしたくなる時もあります。 http://code.google.com/p/lucene-gosen/ svnからtrunkのソースをチェックアウトしてant buildしようとしたらipa...

  • 形態素解析器Senのセットアップ - techlog

    さてはて、Javaで楽しく形態素解析の時間がやってきました。 Sen は、Java で実装された形態素解析器で、工藤拓さんによりオープンソース(LGPL)で開発されている形態素解析器MecabをJavaへポーティングしたライブラリです。 Sen - FrontPage ではでは、インストールして使ってみる。 Wikiにインストールガイドがあるけど、Eclipseでやったほうが楽だと思うので、Eclipse版のセットアップ方法を書いてみる。 前提条件 JDKがインストールされていること ActivePerlがインストールされていること Eclipseがインストールされていること ダウンロード まずはここからSenをダウンロードしてくる。 今回はsen-1.2.2.1.zipを使う。 インポート sen-1.2.2.1.zipを解凍して、Eclipseのworkspaceに置く。ディレクトリ名

    形態素解析器Senのセットアップ - techlog
  • Text Seer Manual

    Text Seer(テキストシアー、以下TSと略)は、東京工業大学大学院価値システム専攻徃住研究室で開発された、テキスト解析のためのアプリケーションです。既に様々なテキスト解析アプリケーションが開発されていますが、TSは簡便性を追求し、またテキストの詳細な解析を主眼に置く点が他のアプリケーションとの相違点となります。 TSには以下のような機能があります。 ●品詞毎の単語のカウント、TFIDFの算出 ●1単語に注目した共起・係り受け解析、グラフ表示 ●単語のコンコーダンス表示、文全体における位置表示 ●共起・係り受け解析、不共起語解析、グラフ表示 ●外部アプリケーションを利用した日語・英語形態素解析・係り受け解析 ●テキストエディタ ●正規表現を利用可能な一括テキスト検索・置換 ●MeCabへの辞書登録 ●表形式、グラフ形式の保存 ●簡易グラフ解析 ●解析テキストの限定、テキスト群の比較

  • 1