2006年3月16日のブックマーク (12件)

  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    $Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

  • 「ググる」の精度を高めるために必要なもの − @IT自分戦略研究所

    いま、現場で求められているキャリアやスキルは、どんなものだろうか。連載では、さまざまなITエンジニアに自身の体験談を聞いていく。その体験談の中から、読者のヒントになるようなキャリアやスキルが見つかることを願っている。 グーグルでソフトウェアエンジニアとして働く工藤拓氏。現在の業務は日語の検索結果の質を向上させることだ。奥が深く難しい仕事だが、工藤氏はマイペースで取り組んでいるように見える。悠然と構えるのは天性なのかもしれないが、長年培った高い専門能力からくる余裕もあるのだろう。おっとりしているようでも、機会を見つけて俊敏に行動する勘はとても鋭い。 ■検索結果の精度を高める 分からないことがあれば「ググる」。あえて説明するのもやぼだが「Googleで検索する」ことをいう。ネットを使う人間なら、「ググる」のは日常茶飯事だろう。検索エンジンGoogleは、名前が動詞になって定着するほどの地位

  • アンラボ・ホームページ

    ●アンラボ、「ウィニーウイルス」専用ワクチンを日無料公開。単体で動作し、ウィニーがPC内に存在するかどうかも検索 情報セキュリティ製品を開発販売する株式会社アンラボは、ファイル交換プログラム「ウィニー(Winny)」などを通じて感染する「ウィニーウイルス」専用ワクチンソフトを、自社Webサイト(http://www.ahnlab.co.jp/)にて日無料公開致しました。 「ウィニー」を通じて感染するウイルスは、PC内の個人情報を不特定多数向けに発信/公開するタイプのものが猛威を振るっており、情報漏洩被害が相次いでおります。 今回配布する専用ワクチンは、ウイルス対策ソフトがなくても単体で「ウィニーウイルス」を検索して削除します。また、全フォルダを自動検索し、「ウィニー」そのものがPC内に存在するかどうかも検索致します。弊社製品ユーザーでない一般のお客様でもご利用可能です。 (詳細

    kana0355
    kana0355 2006/03/16
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • 特許文書を読みやすくする専用解析技術、NTTデータが開発

    難解な特許文書を読みやすいように表示します──NTTデータは、自然言語処理技術を活用し、特許文書を解析して視覚的に表示したり、類似特許検索のためのキーワードを抽出することができる新技術を開発した。 企業が知的財産を重視する流れが加速し、特許出願件数は年間40万件以上に増加している。他社特許権の侵害などを防ぐため、出願済み特許の調査業務も重要になってきている。 だが特許文書はあいまい性を排除するため、独特の言い回しを多用した回りくどい文章で発明の内容を説明している。文章を解読し、内容を正確に理解するには専門家でも時間がかかるのが実情だ。 NTTデータが開発した新技術は、「パターンマッチング」技術を応用した。同技術は特定の品詞や表記などの「形態素」をパターン化し、パターンに適合した文字列を文書から抽出するなどして文書を解析する。 新技術では、特許文書独特の表現形式をパターン化することで構造解析

    特許文書を読みやすくする専用解析技術、NTTデータが開発
    kana0355
    kana0355 2006/03/16
  • http://taweb.aichi-u.ac.jp/saitom/joho/tekisutoshori.htm

  • 83's : MeCab用、2ちゃんねる辞書

    MeCab用、2ちゃんねる辞書 September 11, 2005 18:31:47 Comments (0) Trackbacks (1) プログラミング かな漢字変換用の2ちゃんねる辞書を 元に、MeCab用の辞書を作った。 ( ・∀・)つ[2ch.dic.2005-09-11-22-47] 辞書の追加の仕方はMeCabのサイトの辞書の追加方法のページを 見て下さい。 なんかあんまり正確でないんで、動詞・形容詞・接続詞の中で変だったやつは消しました。 それでもまだまだ変な定義されてる語が多い……。 あとコストが今んとこ3206で一律なんだけど、どうなんだろう。 $ mecab こんなスレageるなよ厨房 こんな 連体詞,*,*,*,*,*,こんな,コンナ,コンナ スレ 名詞,一般,*,*,*,*,スレ,スレ,スレ ageる 動詞,自立,*,*,一段,基形,ageる,アゲル,アゲル

  • 形態素解析ツールの品詞体系

    ChaSen 品詞体系 (IPA品詞体系) ChaSen の品詞体系は任意の階層化を許している。 いわゆる形容動詞は名詞の形容動詞語幹として含まれ、 形容詞には含まれない。Juman の指示詞という カテゴリは「連体詞」に含まれている。 判定詞「だ」は助動詞とされている。 Type1 Type2 Type3 Type4 Examples Description

    kana0355
    kana0355 2006/03/16
  • できれば専門の研究者のかたの回答が欲しいです。 形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。 おすすめの教科書、論文などを教えてください(.. - 人力検��

    できれば専門の研究者のかたの回答が欲しいです。 形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。 おすすめの教科書、論文などを教えてください(できれば日語がいいですが、英語も可)。 おすすめの文献ひとつでも複数でも構いません。 私は自然言語処理について専門知識はありません。 初心者が独学で形態素解析ソフトや翻訳ソフトを作れるようになるような文献をお願いします。

    kana0355
    kana0355 2006/03/16
  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

  • http://www.kc.t.u-tokyo.ac.jp/NLP_Portal/lecture.html

    kana0355
    kana0355 2006/03/16