タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

mecabに関するhironobu-sのブックマーク (2)

  • Mecabのdefファイル調整メモ

    Mecab/IPA辞書を使って記号をわせると、記号(&とか)がサ変接続と認識されます。 $ echo "P&!G" | mecab P 名詞,固有名詞,組織,*,*,*,* &! 名詞,サ変接続,*,*,*,*,* G 名詞,固有名詞,組織,*,*,*,* EOS なんでこうなるかと言うと、char.defとunk.defの設定でそうなっているからです。 (ところで、unknownの略のunkってなんて読むんと良いんでしょうね。うんこ?(´・ω・`)) char.defでは以下のように記述されています。 SYMBOLのINVOKEが1になっているので、常にunknown wordとして扱われます。そしてGROUPが1なので、同じ種別でまとめられます。 SYMBOL 1 1 0 # ASCII 0x0021..0x002F SYMBOL 0x0030..0x0039 NUMERIC 0x0

    Mecabのdefファイル調整メモ
  • PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来ってなんやねん

    一つに結合された住所文字列から、『都道府県』、『市区町村』、『町域名以降』を高速に分割したい。 簡単に思いつく方法としては、日郵便で公開されている住所データを元に1行づつ比較していく方法が考えられますが、生成に時間が掛かってしまいます。 こんな時にmecabを使うと簡単且つ高速に分割できます。 住所辞書の作成 まずは住所辞書を作成します。 そのために住所辞書の元になるデータ用意する必要がありますが、今回は日郵便で公開されている郵便番号データを使いました。 公開されているデータファイルはlzh形式となっているので、lhaで解凍します。 CentOSでのlhaのインストールは『CentOSでlhaを使う - 理想未来はどうなった?』を参考にしてください。 wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh

    PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来ってなんやねん
  • 1