タグ

MeCabに関するhimorogiのブックマーク (7)

  • MeCabで携帯絵文字変換 - kaz29

    ちょっとやりたい事があって最近、MeCabで色々調べたり実験したりしていたのですが、 MeCabを汎用的なテキスト変換ツールとして利用できる様です。 ふと思いついて、この機能を使って携帯絵文字の変換が出来ないか試してみました。 実験の元ネタになる絵文字のデータ、対応表はアシアルさんが公開されているText_Pictogram_Mobile-0.0.2を使わせて頂きました。 変換辞書の作成 今回は各キャリアの絵文字を相互に変換する為以下の6種類の辞書を作成しました。 docomo => ezweb docomo => softbank ezweb => docomo ezweb => softbank softbank => docomo softbank => ezweb Text_Pictogram_Mobileを使用して、辞書の元になるcsvファイルを作成するバッチのスクリプトを作りま

    MeCabで携帯絵文字変換 - kaz29
  • Man page of MECAB

    Section: MeCab (1) Updated: July 2006 Index Return to Main Contents NAME mecab - manual page for mecab of 0.92 SYNOPSIS mecab [options] files DESCRIPTION MeCab: Yet Another Part-of-Speech and Morphological Analyzer COPYRIGHT Copyright © 2001-2006 Taku Kudo Copyright © 2004-2006 Nippon Telegraph and Telephone Corporation -r, --rcfile=FILE use FILE as resource file -d, --dicdir=DIR set DIR as a syst

  • 日本テレビ東京で学ぶMeCabのコスト計算 | mwSoft

    今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日テレビ東京」を解析してもらいましょう。 $ echo 日テレビ東京 | mecab 日 名詞,固有名詞,地域,国,*,*,日,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,

  • Excelで自然言語処理: MeCabにユーザ辞書を追加するには?

    「MeCab/CabChaによる言語解析演習」を参考に、MeCab(Windows版)にユーザ辞書を追加しようとしたところ、かなりハマりました。MeCab/CabChaによる言語解析演習http://chasen.naist.jp/chaki/t/2008-09-09/doc/mecab-cabocha-nlp-seminar-enshu-2008.ppt一連の失敗と原因、対処をメモしておきます。【使用したMeCabのバージョン】0.98(Windows用バイナリ)【コマンドラインからの入力】C:\NAIST>mecab-dict-index -f SHIFT-JIS -t SHIFT_JIS –d “C:\Program Files\mecab\dic\ipadic” -u user.dic user.csv【エラーメッセージ】dictionary_compiler.cpp(71) [p

  • MeCab: Yet Another Japanese Dependency Structure Analyzer

    出力フォーマット $Id: format.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 MeCab は, ChaSen と同様, 出力のフォーマットを比較的自由に再定義することができます. また, 設定ファイルにフォーマットを複数記述しておき, 実行時にそれらを 切り変えることが可能です. これは, MeCab 独自の機能です. 出力フォーマットの指定 以下の 3つ出力フォーマットを変更することができます. node: 1つの形態素を出力, デフォルトは空文字 unk: 1つの未知語形態素を出力, デフォルトは node と同一フォーマット bos: 形態素解析の結果に先だって出力 (header 的役割), デフォルトは空文字 eos: 形態素解析の結果の後に出力 (footer 的役割), デフォルトは "EOS\n" 明示的に指定されない場合

  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • 1