codicは、プログラマーのためのネーミング辞書です。新しいcodicでは、翻訳エンジンを搭載しネーミングをジェネレートできるようになりました。
codicは、プログラマーのためのネーミング辞書です。新しいcodicでは、翻訳エンジンを搭載しネーミングをジェネレートできるようになりました。
Mecab で連続した数字をトークナイズするとだいたい1文字ずつトークナイズされます。連接コストの計算結果で決まるので100%の確率ではありませんが。 $ mecab bmw318 bmw 名詞,固有名詞,組織,*,*,*,* 3 名詞,数,*,*,*,*,3,サン,サン,, 1 名詞,数,*,*,*,*,1,イチ,イチ,, 8 名詞,数,*,*,*,*,8,ハチ,ハチ,, EOS 連続した数字を1トークンとする場合には、数字間の連接コストを小さくします。 $ su $ cd /usr/local/lib/mecab/dic/naist-jdic $ vi unk.def NUMERIC,1367,1367,0,名詞,数,*,*,*,*,* <- 4カラム目の値を 0 にする $ /usr/local/libexec/mecab/mecab-dict-index -c=utf-8 <- 辞
覚え書きみたいな感じ。 Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。 バラバラになってしまった「嵐にしやがれ」 これを、固有名詞と判断させるためにどうしたらいいのか。 はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。 ということでがんばってみた。 【主な参考ページ様】 MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加 【はてなキーワード編】 ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。 で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。 例えばこんな感じ。 嵐にしやがれ
MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Developer Centerから入手できる。 やることは上記リンクを参照するが、引っかかったところが デフォルト辞書の選択 sudo vi /usr/local/etc/mecabrc viコマンド r か R で編集モードに入って、編集終わったら ESC して :wq で保存して終了。 辞書の更新 createDict.py というスクリプトを使っているが、これが csv ファイルを作るときに、単語の中にカンマが入っているものがあるようで、これのせいで出来上がった csv ファイルの列数が乱れているので、 context_id.cp
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。 今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く