IME と KWICの合わせ技です. 杉田玄白プロジェクトの日本語文書を検索します. IMEで複数候補出力し, 検索しています. まるで migemo です. ただし, かな漢字変換をしているため文節(単語境界)をまたぐ場合も動作します. 検索はすべてバックエンドで行われるので, 大量テキストの検索に向いていると思います. クエリ
X11 for Mac OS Xでことえりを使えるように、TSMのドキュメントやkinput2、jmodeのソースを覗きながら、XIMサーバを仕立てようなどとコード片を書き始めてみたが、先がかなり長そうなのであらためてGoogleで検索。九州大学の園田氏が作成され、MachTenのX11でMacのIMを使えるようにするというkinput2.MacIMを発見。 方針を大幅に変えて…、kinput2.MacIMを改造してX11 for Mac OS Xでことえりを使うようにするパッチを作成してみた。 kinput2.MacIMはhttp://homepage1.nifty.com/daemon/MachTen/sonoda/で公開されている。 システム条件: Mac OS X 10.4 (Tiger)、10.3 (Panther) XcodeとX11 SDKのインストールも必要。
universalchardet / juniversalchardet Mozillaのエンコーディング判別ライブラリであるuniversalchardetを切り出して、Cライブラリ化してみた。さらにJavaにもポーティングしてみた。エンコーディング判別なのにcharacter set detectorとはこれいかに。 C版はLinux/Windowsに対応。Linuxでのインストールは make && make install で。autoconfなどという高尚なものは使っておりません。 文字コードの変換はこちら EncodingConversion Related Works jchardet (Java,旧バージョンのchardet) juniversalchardet(Java,universalchardetのJavaポート) Universal Encoding Dete
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く