タグ

ブックマーク / chasen.org/~taku (4)

  • Ajax IME ブックマークレット

    Ajax IME ブックマークレットを作ってみました.右クリックしてブックマークに登録してみてください. Ajax IME ブックマークにアクセスするだけで現在表示しているページにある textarea と inputbox が Ajax IME 経由で入力可能になるはずです.成功すれば2秒ほどで textarea の色が変わって Ajax IME 入力状態になります.Alt-O で元に戻ります. たいていはうまくいくようですが,まだまだ完璧ではなくて CSS がらみから入力のカーソル位置が激しくずれたり,javascript のイベントがフックできなくて変化なしといったことが頻発します.気長に修正していくつもりですが,みなさんのフィードバックお待ちしております. Mixi の日記投稿や Movable Type の投稿も若干癖がありますが問題なかったです.海外からの日記更新がかなり楽にな

  • きまぐれ日記: MeCab: 字種に基づくわかち書き

    前回の N-gram に引き続き、字種に基づく分かち書きを MeCab だけで実現してみます。 日語ほど字種が多い言語はありません。ひらがな、カタカナ、漢字、アルファベット、数字、記号..などなど。これらはわかち書きをする上で非常に重要な情報です。MeCab + ipadic の場合、未知語は字種に基づく発見的な手法 (heuristics) で切り出しています。 今回は、辞書はまったく使わず、この字種情報だけで分かち書きをしてみます。単純に「同じ字種のものをまとめて出力する」といった塩梅です。 例によって、MeCab の辞書の構成のドキュメントはこちらにあります。基的に 1. dic.csv (辞書ファイル) 2. matrix.def (連接ファイル) 3. char.def (文字種ファイル) 4. unk.def (未知語処理) 5. dicrc から辞書が構成されます。今回も

  • http://chasen.org/~taku/blog/archives/2006/05/textmecab.html

  • MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1