タグ

ブックマーク / www.r.dl.itc.u-tokyo.ac.jp/~nakagawa (2)

  • term and stemming

    ターム抽出 全文を処理してタームを抽出する作業は情報検索シス テム構築の中心的部分である。英語と日語では方法論が非常に異なる。言語 の構造的特徴を比較してみよう。 英語 単語間に空白があるので、個々の単語を容易に取り出せる。 名詞は単数、複数で語尾変化。動詞も時制、数で語尾変化。 prefix,suffix が単語につく。 日語 膠着言語であり、単語の切れ目が形だけでは分からない。 名詞は語尾変化しない。 多数の名詞が繋がって複合名詞を形成することが多い。 漢字は1文字でそれなりの意味を持つ。 英語のターム抽出 Stemming 異形態から語幹を抽出する。例えば、engineering, engineered, engineeres などから共通の語幹 engineer を抽出する。最もナイーブな方法は、全ての異 形態に語幹を対応させる対応辞書を作っておき、入力された異形態から辞書引

  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

  • 1