kana0355のブックマーク / 2006年3月16日

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

$Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

kana0355 2006/03/16

リンク

「ググる」の精度を高めるために必要なもの − ＠IT自分戦略研究所

いま、現場で求められているキャリアやスキルは、どんなものだろうか。本連載では、さまざまなIT エンジニアに自身の体験談を聞いていく。その体験談の中から、読者のヒントになるようなキャリアやスキルが見つかることを願っている。グーグルでソフトウェアエンジニアとして働く工藤拓氏。現在の業務は日本語の検索結果の質を向上させることだ。奥が深く難しい仕事だが、工藤氏はマイペースで取り組んでいるように見える。悠然と構えるのは天性なのかもしれないが、長年培った高い専門能力からくる余裕もあるのだろう。おっとりしているようでも、機会を見つけて俊敏に行動する勘はとても鋭い。 ■検索結果の精度を高める分からないことがあれば「ググる」。あえて説明するのもやぼだが「Googleで検索する」ことをいう。ネットを使う人間なら、「ググる」のは日常茶飯事だろう。検索エンジンGoogleは、名前が動詞になって定着するほどの地位

kana0355 2006/03/16

reading

リンク

アンラボ・ホームページ

●アンラボ、「ウィニーウイルス」専用ワクチンを本日無料公開。単体で動作し、ウィニーがPC内に存在するかどうかも検索情報セキュリティ製品を開発販売する株式会社アンラボは、ファイル交換プログラム「ウィニー（Winny）」などを通じて感染する「ウィニーウイルス」専用ワクチンソフトを、自社Webサイト（http://www.ahnlab.co.jp/）にて本日無料公開致しました。「ウィニー」を通じて感染するウイルスは、PC内の個人情報を不特定多数向けに発信／公開するタイプのものが猛威を振るっており、情報漏洩被害が相次いでおります。今回配布する専用ワクチンは、ウイルス対策ソフトがなくても単体で「ウィニーウイルス」を検索して削除します。また、全フォルダを自動検索し、「ウィニー」そのものがPC内に存在するかどうかも検索致します。弊社製品ユーザーでない一般のお客様でもご利用可能です。（詳細

kana0355 2006/03/16

PC

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

kana0355 2006/03/16

NLP
Tips

リンク

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出

形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。教科書に載っているような基本中の基本ですが、あらためてエッセンスを簡単な例で解説したいと思います。目的：キーワード抽出対象テキストから、そのテキストを代表するキーワードを抽出します。TF-IDF という指標を用います。（この値が大きいほどその単語が代表キーワードっぽいということでよろしく。） TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

kana0355 2006/03/16

リンク

特許文書を読みやすくする専用解析技術、NTTデータが開発

難解な特許文書を読みやすいように表示します──NTTデータは、自然言語処理技術を活用し、特許文書を解析して視覚的に表示したり、類似特許検索のためのキーワードを抽出することができる新技術を開発した。企業が知的財産を重視する流れが加速し、特許出願件数は年間40万件以上に増加している。他社特許権の侵害などを防ぐため、出願済み特許の調査業務も重要になってきている。だが特許文書はあいまい性を排除するため、独特の言い回しを多用した回りくどい文章で発明の内容を説明している。文章を解読し、内容を正確に理解するには専門家でも時間がかかるのが実情だ。 NTTデータが開発した新技術は、「パターンマッチング」技術を応用した。同技術は特定の品詞や表記などの「形態素」をパターン化し、パターンに適合した文字列を文書から抽出するなどして文書を解析する。新技術では、特許文書独特の表現形式をパターン化することで構造解析

kana0355 2006/03/16

NLP

リンク

http://taweb.aichi-u.ac.jp/saitom/joho/tekisutoshori.htm

kana0355 2006/03/16

リンク

83's : MeCab用、2ちゃんねる辞書

MeCab用、2ちゃんねる辞書 September 11, 2005 18:31:47 Comments (0) Trackbacks (1) プログラミングかな漢字変換用の2ちゃんねる辞書を元に、MeCab用の辞書を作った。（　・∀・）つ[2ch.dic.2005-09-11-22-47] 辞書の追加の仕方はMeCabのサイトの辞書の追加方法のページを見て下さい。なんかあんまり正確でないんで、動詞・形容詞・接続詞の中で変だったやつは消しました。それでもまだまだ変な定義されてる語が多い……。あとコストが今んとこ3206で一律なんだけど、どうなんだろう。 $ mecab こんなスレageるなよ厨房こんな連体詞,*,*,*,*,*,こんな,コンナ,コンナスレ名詞,一般,*,*,*,*,スレ,スレ,スレ ageる動詞,自立,*,*,一段,基本形,ageる,アゲル,アゲル

kana0355 2006/03/16

リンク

形態素解析ツールの品詞体系

ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。いわゆる形容動詞は名詞の形容動詞語幹として含まれ、形容詞には含まれない。Juman の指示詞というカテゴリは「連体詞」に含まれている。判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

kana0355 2006/03/16

NLP

リンク

できれば専門の研究者のかたの回答が欲しいです。形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。おすすめの教科書、論文などを教えてください（.. - 人力検��

できれば専門の研究者のかたの回答が欲しいです。形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。おすすめの教科書、論文などを教えてください（できれば日本語がいいですが、英語も可）。おすすめの文献ひとつでも複数でも構いません。私は自然言語処理について専門知識はありません。初心者が独学で形態素解析ソフトや翻訳ソフトを作れるようになるような文献をお願いします。

kana0355 2006/03/16

NLP

リンク

Wikipedia:データベースダウンロード - Wikipedia

ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています（Wikipedia:著作権と利用規約を参照）。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。より詳しい解説はmeta:Data dumps（英語）を参照してください。全プロジェクトのダンプ：du

kana0355 2006/03/16

NLP
Corpus

リンク

http://www.kc.t.u-tokyo.ac.jp/NLP_Portal/lecture.html

kana0355 2006/03/16

NLP

リンク

はてなブックマーク

タグ

2006年3月16日のブックマーク (12件)

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

「ググる」の精度を高めるために必要なもの − ＠IT自分戦略研究所

アンラボ・ホームページ

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出

特許文書を読みやすくする専用解析技術、NTTデータが開発

http://taweb.aichi-u.ac.jp/saitom/joho/tekisutoshori.htm

83's : MeCab用、2ちゃんねる辞書

形態素解析ツールの品詞体系

できれば専門の研究者のかたの回答が欲しいです。形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。おすすめの教科書、論文などを教えてください（.. - 人力検��

Wikipedia:データベースダウンロード - Wikipedia

http://www.kc.t.u-tokyo.ac.jp/NLP_Portal/lecture.html

お知らせ

今週のはてなブックマーク数ランキング（2025年2月第3週）

今週のはてなブックマーク数ランキング（2025年2月第2週）

月間はてなブックマーク数ランキング（2025年1月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス