タグ

ブックマーク / chasen.org/~taku (7)

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    toton
    toton 2010/03/01
    MeCabの学習機能
  • きまぐれ日記: ルー語変換を MeCab だけで実現

    巷で話題のルー語変換.周りにこういうしゃべり方をする人がいるからかもしれませんが, 爆笑しました 中身は,MeCab -> EDICT -> Bilingual Emacspeak だそうです. 単純な単語置換なので,MeCab を汎用テキスト変換ツールとして利用すればまったく同じことが MeCab だけで実現できます. やってることは単純で, MeCab の辞書の品詞フィールドをルー語にした辞書を作るだけです.対象のルー語がない場合は単語そのものを品詞に設定します. 通常は 「入力文字列 -> 品詞列」 の変換が行われます.上記のような辞書を作ると,品詞の部分がすべてルー語に置き換わって 「入力文字列 -> ルー語文字列」の変換が実現されます. しかも単語のつながりやすさや,出現しやすさは上記のような辞書を作っても CSV カラムの 2,3,4 カラム目に残っているので, 原理的には M

    toton
    toton 2009/02/25
    "単純な単語置換ではなくて,日本語の文法を考慮しながらそれなりに変換してくれます. "
  • きまぐれ日記: やっぱり SWIG が好き

    http://d.hatena.ne.jp/lestrrat/20060713#1152777605 なぜ私がSWIGを勧めるのかというと, エンジニアが身につける道具としてSWIGの投資効果が 高いからです. SWIGは, バインディングを「キッチリ」作る道具というよりはむしろ今ある問題を「サクっと」片づけるのに向いています. In-house の仕事や personal use もいいでしょう. C/C++ とスクリプト言語, 両方使っている方組織は, この機会にSWIGを導入してみるのはいかがでしょうか. 私だけかもしれませんが, スクリプト言語とC/C++ にはもやもやとした誤解を感じます - バインディングの作成は, 言語依存で複雑なフレームワークの修得が不可避 - C/C++ はある程度触れるけど, バインディングって敷居高そう - とりあえず誰かがバインディングを作っていない

    toton
    toton 2008/09/14
    なぜ私がSWIGを勧めるのかというと, エンジニアが身につける道具としてSWIGの投資効果が 高いからです SWIGは, 多少強引なアプローチにしろ透過的なアクセスが可能であるということを証明してくれました.
  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    toton
    toton 2008/09/04
    工藤拓 MeCab 形態素解析
  • mecab-skkserv MeCab を使ってかな漢字変換

    mecab-skkserv とは mecab-skkserv は, 形態素解析器 MeCab を用いたシンプルな仮名漢字変換サーバです. SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 目次 特長 変更点 ダウンロード インストール 使い方 辞書への単語登録 注意事項 TODO リンク 特長 SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 連文節を含む比較的長い入力でもそれなりに賢く変換してくれます. 単語連接コストや単語生起コストは, HMM に基づく確率的な推定に基づいて 与えられています. MeCab が出力する N-best 解 を変換候補として用いており, 通常の SKK よりは 多くの変換候補をそれなりのランキン

    toton
    toton 2008/02/17
  • きまぐれ日記: colinux から VMware Player に乗り換え

    一年以上 windows 上で colinux を使っていてこれといった不自由はなかったのですが、vmware player に乗り換えようと思い立ちました。colinux の環境のほとんどをある方に作ってもらって(カスタマイズされた linux kernel, xfs などなど)アップグレードの煩雑さや可搬性の問題があったからです。vmware player の利点は - ディスクイメージさえコピーすれば、Linux でも Windows でも同じようにゲストOS を動かせてポータブル - 普通のカーネルが使える - Linux 以外の OS も動かせる (Solaris 10 など) - 音が鳴る (あまり重要ではないけど) - USB デバイスが使える qemu を使って vmware 用のディスクイメージを作る方法がいろんなところで紹介されています。その通りにやるとあっけなくインス

  • Ajax を使った 日本語 IME

    最近はやりの Ajax で 簡易IMEを作ってみました。 適当な「ローマ字列」もしくは「ひらがな列」を入力してください. リアルタイムにかな漢字変換を行います. 変換候補の修正等はできません. 拙作の形態素解析器MeCabを 変換エンジンとして使っています. Google suggest 風に変換候補を出したいですが, かなり大変そうです. 変換エンジンは複数の候補を出しているので, UI の問題だけです. こちらに, この IME とKWICを 組み合わせたテキスト検索ツールがあります. あわせて御覧ください.

    toton
    toton 2005/03/10
    Ajax を使った 日本語 IME
  • 1