satzzのブックマーク / 2010年5月22日

satzz id:satzz

2010年5月22日のブックマーク (2件)

Introduction to Dirichlet Process and its Applications - yasuhisa's blog
学習とモデルの複雑さ*1 混合モデルにおける混合数や多項式回帰での次数をどのようにして決めるか? AICなどの情報量基準 CVによるパラメータの決定 Nonparametric Bayesian ノンパラベイジアンは違う発想をする柔軟でないモデルは間違った推論をしてしまう柔軟でないというのは混合数「5」の混合ガウス分布とか、次数「4」の多項式回帰とかもっと柔軟なモデルを作ろうモデルのパラメータ数をサンプル数によって可変にしようある意味、パラメータ数をに持っていくノンパラメトリックなモデルはモデル選択をする必要性がないパラメトリックなモデル有限個のパラメータ集合について考えている新たなデータを予測するときには、前のデータとは独立なことを想定している有限個のパラメータによって、データの特性全てを記述する手に入るデータの量が限られていれば、モデルの複雑さは限定されてしまう
satzz 2010/05/22
machine learning

clustering
リンク
untitled
辻井研演習３単語クラスタリングの諸考察岡野原大輔 04/05/24 1 背景集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類するクラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、単語を分類したり、文書を分類するなど、多くのケースで使用されている。単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決され、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラスタリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数
satzz 2010/05/22
岡野原さんの何か,2004

clustering
リンク
- 2010年5月23日
- 2010年5月22日
- 2010年5月20日