タグ

mecabに関するa_bickyのブックマーク (7)

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • MeCab の Ruby 各種ライブラリをベンチ取ってみた - Kōenji

    前書き たっくん(@takkkun)との会話 「MeCab の Ruby Binding、SWIG 使ってるから MeCab と密結合してて、手元とサーバで MeCab のバージョンが違う時にインストールするの面倒臭いんだよね」 「Natto gem 使えば良いじゃん」 「Natto gem 遅いんだよ」 前提条件 MeCab のバージョンは 0.996 を使用 ベンチマークは parse メソッド(mecab_parse_tostr 関数)のみを対象とする 何故 Natto gem が遅いのか調べた Natto::MeCab#parse メソッド内で、初期化時に作成された無名関数を呼んでること、ブロックがあった場合の処理の切り分けをしてること、ヘルパー経由でエンコーディングしてることがボトルネックになっていることが分かった ここの条件分岐やヘルパーメソッドの呼び出しをなくしハードコードし

    MeCab の Ruby 各種ライブラリをベンチ取ってみた - Kōenji
  • MeCabでN-Best解を出力した時のコストの表示がおかしい? - 唯物是真 @Scaled_Wurm

    「MeCabでN-best解を出力した時に累積コストを見ると順番に並んでないように見えるんですが何故ですか?」ときかれて答えられなかったのでとりあえずメモ 上の質問自体は、質問者がEOSとの連接コストを計算し忘れていたのではないかと思うんですが……それ以外にも気になることがあったので MeCabのコスト計算 形態素解析器のMeCabはコストが一番低い解析結果を出力します コスト計算の詳細は以下の記事がわかりやすいです 日テレビ東京で学ぶMeCabのコスト計算 | mwSoft 単語のコストと連接コスト(前後関係に基づいたコスト)を足していけば計算できます(と理解しています 上記の記事でも書かれているように-Fなどのオプションで%pcというフォーマットを指定すると累積コストが表示できます 出力フォーマット mecab -F"%m(%pc) " -E"EOS(%pc)\n"とコマンドを打って

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ

    mecab-ipadicのCRF学習モデルが追加されたことにより、辞書に単語を追加しやすくなったようだ。 http://sourceforge.jp/projects/mecab/lists/archive/users/2012-June/000456.html 以前のMeCabの場合、単語追加をする場合は、追加したい単語と似ている単語のコスト値からなんとなく予測して追加する必要があって、結構やりにくかった。なので、どのぐらいやりやすくなったかを早速試してみた。 まず、自分のローカルにMeCabをインストールした。 また、ipadicのモデルファイルしかないようなので、ipadic辞書を入手する。 http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.tar.gz&can=2&q= http://code.goog

    MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ
  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    $Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明

  • MeCab:YOSHINO Weblog/吉野ブログ

    このブログは吉野孝の雑文が書き散らされています.割とプライベートの話が多いです.内容についての責任はとれません... 日語の形態素解析のために,いつもMeCabを使っている. 実は,参考文献にあげるときにいつも困っていた. というのは,MeCabに関する論文が一体どれなのかが分からない. 仕方ないのでMaCabのホームページURLを載せていたけど, いつも,URLじゃいかんよな〜って思っていました. 開発者は奈良先端大のTaku Kudo(工藤 拓)さんなのだけど, Publication List(http://chasen.org/~taku/)を見ても, どれがMeCabに関係しているのかが分からない (いくつか関係しているのかもしれないけど). というのは,MeCabという名前が論文のどこにもでてこないため. MeCabを利用している論文は結構あるので, やっぱり,URLを参考文

    a_bicky
    a_bicky 2010/02/12
    MeCabの引用文献
  • 1