kamipoのブックマーク - はてなブックマーク

kamipo id:kamipo

ブックマーク / www.r.dl.itc.u-tokyo.ac.jp/~nakagawa (2)

term and stemming
ターム抽出全文を処理してタームを抽出する作業は情報検索システム構築の中心的部分である。英語と日本語では方法論が非常に異なる。言語の構造的特徴を比較してみよう。英語単語間に空白があるので、個々の単語を容易に取り出せる。名詞は単数、複数で語尾変化。動詞も時制、数で語尾変化。 prefix,suffix が単語につく。日本語膠着言語であり、単語の切れ目が形だけでは分からない。名詞は語尾変化しない。多数の名詞が繋がって複合名詞を形成することが多い。漢字は1文字でそれなりの意味を持つ。英語のターム抽出 Stemming 異形態から語幹を抽出する。例えば、engineering, engineered, engineeres などから共通の語幹 engineer を抽出する。最もナイーブな方法は、全ての異形態に語幹を対応させる対応辞書を作っておき、入力された異形態から辞書引
kamipo 2009/11/10
stemming
リンク
統計的機械学習(Hiroshi Nakagawa)
統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化ベイズ統計の意義識別モデルと生成モデル次元の呪い損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価線形回帰と識別ppt pdf 線形回帰正規方程式正規化項の導入線形識別カーネル法ppt pdf 線形識別の一般化カーネルの構築法最大マージン分類器ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム変分ベイズ法 Expecta
kamipo 2009/06/19
機械学習

パターン認識

クラスタリング
リンク
1

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

はてなブックマーク

タグ

ブックマーク / www.r.dl.itc.u-tokyo.ac.jp/~nakagawa (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / www.r.dl.itc.u-tokyo.ac.jp/~nakagawa (2)

term and stemming

統計的機械学習(Hiroshi Nakagawa)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス