タグ

ブックマーク / chasen.org/~taku (8)

  • きまぐれ日記: MeCabがiPhone,OSXに載っていると言うのは止めようと思う

    iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 WindowsiTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更は うまく

  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    aki77
    aki77 2008/02/11
    『わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。』
  • きまぐれ日記: MeCab 0.90 だけをつかって Auto Link

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • きまぐれ日記: MECAPIを182倍高速にしてみた

    MeCabのWebService, MECAPI を182倍高速にして<みました。(2.68qps → 488qps) http://api.chasen.org/mecapi/ - Perlによる実装はやめて、完全に C++ で書き直し - CGI ではなくて、C++ による自作 HTTPServer - mecab のプロセスを prefork することで永続化 たつをさんのオリジナルMECAPIの機能はまだ完全に実装しておらず、基的な機能しか提供しておりませんが、随時サポートしていきたいと思います。 補足: 実際はネットワークのレイテンシーがあるので、外部ホストから計測すると体感としては、10倍程度の 高速化だと思います。 オリジナルMECAPI: Server Software: Apache/2.0.53 Server Hostname: chasen.org Server P

    aki77
    aki77 2007/05/02
    Perlによる実装はやめて、完全に C++ で書き直し。CGI ではなくて、C++ による自作 HTTPServer。mecab のプロセスを prefork することで永続化。
  • きまぐれ日記: ルー語変換を MeCab だけで実現

    巷で話題のルー語変換.周りにこういうしゃべり方をする人がいるからかもしれませんが, 爆笑しました 中身は,MeCab -> EDICT -> Bilingual Emacspeak だそうです. 単純な単語置換なので,MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます. やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです.対象のルー語がない場合は単語そのものを品詞に設定します. 通常は 「入力文字列 -> 品詞列」 の変換が行われます.上記のような辞書を作ると,品詞の部分がすべてルー語に置き換わって 「入力文字列 -> ルー語文字列」の変換が実現されます. しかも単語のつながりやすさや,出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので, 原理的には M

  • きまぐれ日記: colinux から VMware Player に乗り換え

    一年以上 windows 上で colinux を使っていてこれといった不自由はなかったのですが、vmware player に乗り換えようと思い立ちました。colinux の環境のほとんどをある方に作ってもらって(カスタマイズされた linux kernel, xfs などなど)アップグレードの煩雑さや可搬性の問題があったからです。vmware player の利点は - ディスクイメージさえコピーすれば、Linux でも Windows でも同じようにゲストOS を動かせてポータブル - 普通のカーネルが使える - Linux 以外の OS も動かせる (Solaris 10 など) - 音が鳴る (あまり重要ではないけど) - USB デバイスが使える qemu を使って vmware 用のディスクイメージを作る方法がいろんなところで紹介されています。その通りにやるとあっけなくインス

  • MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    aki77
    aki77 2005/07/02
  • 1