タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

senに関するwize03のブックマーク (3)

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • Sen - 日本語形態素解析システム

    Sen は Java で書かれた日形態素解析システム。 C++ で開発されている MeCab を Java に移植したもの。 辞書は MeCab、茶筌と同じIPAの辞書を利用。 Sen配布ページ 辞書の構築に Apache Ant が必要。 このページは Sen version 1.2.2.1 用である。 インストール Apache Antのインストール Sen は辞書を構築するのに Apache Ant というビルドツールを使う。 これをあらかじめインストールしておく必要がある。 Apache Ant のインストール Senのインストール パッケージはSen配布ページから sen-1.2.2.1.zip をダウンロードしておく(mirror)。以下では ~学籍番号/Desktop/ にダウンロードしたものとして話を進める。 展開 /usr/local に展開し、ディレクトリ名を se

    wize03
    wize03 2009/05/18
    インストールとクラスメソッド解説
  • 形態素解析エンジンSenを使う - 不可視点

    ゼミ用資料 関係のない方はスルーしてください グーグル様に聞けばすばらしい資料がいっぱい出ますが、とりあえず出たやつをまとめました。 無料のものから商用向けまで非常に多くの形態素解析エンジンが開発されている。 形態素解析とは? 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。 工藤 拓[MeCab 汎用日形態素解析エンジン]http://www.jtpa.org/files/M

    形態素解析エンジンSenを使う - 不可視点
  • 1