タグ

!tumblr-techと辞書に関するtyruのブックマーク (2)

  • Anthy用JIS第3・第4水準漢字変換辞書 - yanok.net

    概要 Linux等で使われる仮名漢字変換プログラムAnthyのための、JIS第3・第4水準漢字を含む語彙の辞書です。SKK用の辞書・SKK-JISYO.JIS3_4から変換して作成したものです。漢字だけでなく、JIS X 0213にあってJIS X 0208にない非漢字の語彙も含みます。 これにより、JIS X 0208 (第1・第2水準)に足りない、現代日で使われる文字を大幅に補うことが可能です。例えば、以下のような言葉や記号等がAnthyで変換可能になります。 従来表記できなかった地名: 吐噶喇列島 (とから‐、鹿児島県)、𣗄代 (たらのきだい、山形県)、𧃴川 (つづらかわ、愛媛県)、𡵢下 (なぎのした、愛知県)、魹ヶ崎 (とどがさき、岩手県)、等々多数。 人名: 里見弴 (さとみとん)、中内㓛 (なかうちいさお)、渞 (みなもと、姓)、中村惕斎 (なかむらてきさい、江戸時代の

  • IPADIC(IPA辞書)とはなにものか?

    ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

    IPADIC(IPA辞書)とはなにものか?
    tyru
    tyru 2010/05/13
    IPADICの歴史的なあれこれ。よくまとまってる。
  • 1