サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは本日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
mecabにwikipediaのタイトルの単語を追加します。 ググると、既に様々な人がされているので、参考にさせて頂きました。また、本家のサイトで詳しく説明されています。 csvファイルの作成にperlを使いました。 以下が作業の流れです。 1)wikipediaのデータをダウンロード 2)ダウンロードしたデータからユーザ辞書のCSVファイルを作成 3)CSVファイルを辞書ファイル(.dic)へ変換 wikipediaのタイトルを辞書に追加すると $ mecab 千と千尋の神隠し 千 名詞,数,*,*,*,*,千,セン,セン と 助詞,格助詞,引用,*,*,*,と,ト,ト 千尋 名詞,一般,*,*,*,*,千尋,チヒロ,チヒロ の 助詞,連体化,*,*,*,*,の,ノ,ノ 神隠し 名詞,一般,*,*,*,*,神隠し,カミガクシ,カミガクシ EOS これが $
(インストールの仕方などはほかの人がいっぱい説明してくれているので割愛) どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に 「wikipediaとhatenaキーワードをユーザ辞書として利用する」 ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く