タグ

mecabに関するyo-11-06のブックマーク (5)

  • PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来ってなんやねん

    一つに結合された住所文字列から、『都道府県』、『市区町村』、『町域名以降』を高速に分割したい。 簡単に思いつく方法としては、日郵便で公開されている住所データを元に1行づつ比較していく方法が考えられますが、生成に時間が掛かってしまいます。 こんな時にmecabを使うと簡単且つ高速に分割できます。 住所辞書の作成 まずは住所辞書を作成します。 そのために住所辞書の元になるデータ用意する必要がありますが、今回は日郵便で公開されている郵便番号データを使いました。 公開されているデータファイルはlzh形式となっているので、lhaで解凍します。 CentOSでのlhaのインストールは『CentOSでlhaを使う - 理想未来はどうなった?』を参考にしてください。 wget http://www.post.japanpost.jp/zipcode/dl/kogaki/lzh/ken_all.lzh

    PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来ってなんやねん
  • MeCab: 単語の追加方法

    $Id: dic.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: u

  • Phactory: MeCabにユーザ辞書を追加する方法

    MeCabの辞書登録方法には、ipadicなどのシステム辞書を一気に更新してしまう方法と ユーザ辞書を追加で登録する方法があります。/usr/local/etc/mecabrcの編集権限が あるならば、いつでも追加登録する辞書を切り替えられる点で後者の方が楽でしょう。 辞書の作成方法については、家の 解説サイトを見てください。ここでは、以下の例(hoge.csv)を追加用ファイルとして用います。 【hoge.csv】 AOC,-1,-1,3049,名詞,固有名詞,一般,*,*,*,AOC,AOC,AOC AOCホールディングス,-1,-1,3013,名詞,固有名詞,一般,*,*,*,AOCホールディングス,AOCホールディングス,AOCホールディングス AOCワインの一覧,-1,-1,3016,名詞,固有名詞,一般,*,*,*,AOCワインの一覧,AOCワインの一覧,AOCワインの

  • Blog - Mikula Beutl - SEO Consulting

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    Blog - Mikula Beutl - SEO Consulting
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1