タグ

ブックマーク / chasen.org (3)

  • Taku Kudo

    Profile 名前 工藤 拓 (くどう たく) 職業 研究者 写真 お台場にて  ルスツにて 暇つぶし ウクレレ, スノーボード, ジャグリング, ダーツ Research Topics 統計的自然言語処理 形態素解析 テキストチャンキング 統計的統語解析 統計的係り受け解析 機械学習 Support Vector Machines Boosting Maximal Margine Classifiers データマイニング 半構造化データの高速マイニング テキストマイニング 評判分析 Software MeCab (次世代 形態素解析 エンジン) CaboCha (係り受け解析器) CRF++ (汎用 Tagger,Chunker based on CRF) YamCha (汎用 Tagger,Chunker based on SVM) TinySVM (SVM 学習パッケージ) Tin

    so_ra_to
    so_ra_to 2007/09/19
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

    so_ra_to
    so_ra_to 2007/06/23
  • ChaSen.org

    サービス Ajax IME: Webベースの日本語入力。特別なソフトは必要ありません。 Ajax 手書き文字認識: Webベースの日語手書き文字入力� 個人ページ Taku Kudo's page サイトの運営者です

    so_ra_to
    so_ra_to 2006/07/16
    直接入力からローマ字→漢字ひらがな変換。ajax
  • 1