タグ

形態素解析と資料に関するtorutoのブックマーク (2)

  • 大学院講義「ウェブ工学」のネタ選び - 豊田正史のSLとは関係ございません(2007-08-13)

    _ [大学] 大学院講義「ウェブ工学」のネタ選び 10月開講の「ウェブ工学」で何をネタにするかそろそろ考えなくてはいけない。ウェブ工学ってなんだってのはひとまず置いておいて、ウェブ関係のネタで研究ができるようになることを目標とし、それに必要な基礎知識はなにか、というあたりから考えていくことにしよう。とりあえず思いついたものから挙げてみる。 The Anatomy of a Search Engine まずは、これを読めるような基礎知識を教えないといけないだろう。これの後に、この手のサーチエンジンアーキテクチャ論文ってあるのかな?あ、Anna Pattersonの記事とかあったなあ。 Tech Report: SRC-RR-175: The Link Database: Fast リンクデータベースの作り方。PageRankやHITSなどを実際にウェブのスケールで計算しようとするとこのあたり

    大学院講義「ウェブ工学」のネタ選び - 豊田正史のSLとは関係ございません(2007-08-13)
    toruto
    toruto 2007/08/14
    「ウェブ工学」という名前の付け方がある種危険な気もする。内容は聞いてみたいのだけど。
  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • 1