[B! nlp][mecab] nhayatoのブックマーク

MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話 - 驚異のアニヲタ社会復帰の予備

MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。データはHatena Developer Centerから入手できる。やることは上記リンクを参照するが、引っかかったところがデフォルト辞書の選択 sudo vi /usr/local/etc/mecabrc viコマンド r か R で編集モードに入って、編集終わったら ESC して :wq で保存して終了。辞書の更新 createDict.py というスクリプトを使っているが、これが csv ファイルを作るときに、単語の中にカンマが入っているものがあるようで、これのせいで出来上がった csv ファイルの列数が乱れているので、 context_id.cp

nhayato 2013/09/18

mecab
nlp

リンク

MeCab: オリジナル辞書/コーパスからのパラメータ推定

概要学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れデータフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備学習用バイナリ辞書の作成 CRF パラメータの学習配布用辞書の作成解析用バイナリ辞書の作成評価それぞれ順に説明していきます. Seed辞書の準備 MeCabの辞書は CSV で記述されます. Seed 辞書と配布辞書の

nhayato 2013/09/16

mecab
nlp

リンク

MeCabの辞書をカスタマイズする | mwSoft

概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,

nhayato 2013/09/08

mecab
nlp

リンク

MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。

MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ

nhayato 2013/09/08

nlp
mecab

リンク

バージョン違いのmecab-rubyを共存させる with Homebrew - Qiita

Help us understand the probl em. What is going on with this article?

nhayato 2012/07/28

リンク

Ubuntu 10.04でMeCabをRubyから使えるようにする - ぬいぐるみライフ？

MeCabのインストール MeCabと辞書のインストールはapt先生にお任せします．辞書はUTF-8のものを使います． $ sudo apt-get install mecab mecab-ipadic-utf8MeCabが正常に動くことを確認します． $ echo "俺、この戦争が終わったら結婚するんだ。" | mecab 俺名詞,代名詞,一般,*,*,*,俺,オレ,オレ、記号,読点,*,*,*,*,、,、,、この連体詞,*,*,*,*,*,この,コノ,コノ戦争名詞,サ変接続,*,*,*,*,戦争,センソウ,センソーが助詞,格助詞,一般,*,*,*,が,ガ,ガ終わっ動詞,自立,*,*,五段・ラ行,連用タ接続,終わる,オワッ,オワッたら助動詞,*,*,*,特殊・タ,仮定形,た,タラ,タラ結婚名詞,サ変接続,*,*,*,*,結婚,ケッコン,ケッコンする動詞,

nhayato 2012/05/06

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

nhayato 2011/09/13

nlp
mecab

リンク

mecab辞書にwikipediaのタイトル名を追加 - kokotech

wikipediaのタイトルを追加しようとしたらいくつかハマったので。環境はFedora10。まずはmecabのインストール。 # yum install mecab* とりあえずこれだけでおもむろに形態素解析してみる。 # echo けいおん！のせいでtwitter界隈にギター買うとか宣言してる奴が増えた | mecab けい名詞,一般,*,*,*,*,けい,ケイ,ケイおん名詞,一般,*,*,*,*,おん,オン,オン！記号,一般,*,*,*,*,！,！,！の助詞,連体化,*,*,*,*,の,ノ,ノせい名詞,非自立,一般,*,*,*,せい,セイ,セイで助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ t * w * i * t * t * e

nhayato 2011/06/09

nlp
mecab

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

nlpとmecabに関するnhayatoのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス