タグ

形態素に関するnazokingのブックマーク (3)

  • Microsoft Learn: キャリアの扉を開くスキルを身につける

    このブラウザーはサポートされなくなりました。 Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。

    Microsoft Learn: キャリアの扉を開くスキルを身につける
    nazoking
    nazoking 2005/07/02
    日本語ワードブレーカ(形態素解析器)の動作について。
  • 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

    はじめに  テキストデータから、専門用語を取り出すためのPerlモジュール"TermExtract"を解 説します。 日語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」があ りますが、そのまま専門用語の抽出に使うには次の2つの問題があります。 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、 複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく 分割するため、そのまま使うには難があります。 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・ 森辰則助教授が作成した「専門用語自動抽出システム」があります。 それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場 合もある)を重要度の高い順に返すものです。

    nazoking
    nazoking 2005/07/02
    「茶筅」の形態素解析結果を複合語に組み立て、その複合語(単語の場合もある)を重要度の高い順に返す。多
  • MeCab: Yet Another Part-of-Speech and MorphologicalAnalyzer

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

    nazoking
    nazoking 2005/07/02
    解析精度は, ChaSen と変わらないにもかかわらず, 平均的に ChaSen の3-4倍のスピードで動作します
  • 1