タグ

2011年7月24日のブックマーク (5件)

  • MeCab: 単語の追加方法

    $Id: dic.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: u

    Kesin
    Kesin 2011/07/24
  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    $Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明

    Kesin
    Kesin 2011/07/24
  • MeCabユーザー辞書 VOCALOID関連単語追加パック (ミクのロボ声用):単語の追加

    ユーザー辞書への単語の追加 単語の追加方法 同梱しているCSVファイル(vocaloid.csv)を編集して、単語を追加できます。 ここでは、固有名詞などの活用しない語の追加方法を説明します。 活用する語の追加など、細かい規則はMeCab公式の単語の追加方法のページを参照してください。 フォーマットの簡単な解説 下の図はcsvファイルをExcelで開いたところです。 26行目の「表層形~」は、辞書のフォーマットとの対応を見やすくするために書いたものです。実際にはこの行は必要ありません。 上記画像の「表層形」(A列)が読ませたい単語、「発音」の列(M列)の文字が、ロボ声で発音される読みになります。 発音は基的に「読み」(L列)と同じでOKですが、ロボ声の発音を読みと変えたい場合(例:スイート→スウィート 等)は、「発音」列を変更すればその通り読んでくれます。 「左文脈ID」「右文脈ID」(

    Kesin
    Kesin 2011/07/24
  • はてなキーワードからMecCab辞書を生成する(Ruby版)

    文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為(文字コードの問題かな)、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました(当にこの方法で良いのか未確認)。 辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。 読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。 参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使

    Kesin
    Kesin 2011/07/24
  • mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ

    (インストールの仕方などはほかの人がいっぱい説明してくれているので割愛) どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に 「wikipediahatenaキーワードをユーザ辞書として利用する」 ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c

    Kesin
    Kesin 2011/07/24

公式Twitter

  • @HatenaBookmark

    リリース、障害情報などのサービスのお知らせ

  • @hatebu

    最新の人気エントリーの配信