タグ

2010年5月22日のブックマーク (2件)

  • Introduction to Dirichlet Process and its Applications - yasuhisa's blog

    学習とモデルの複雑さ*1 混合モデルにおける混合数や多項式回帰での次数をどのようにして決めるか? AICなどの情報量基準 CVによるパラメータの決定 Nonparametric Bayesian ノンパラベイジアンは違う発想をする 柔軟でないモデルは間違った推論をしてしまう 柔軟でないというのは混合数「5」の混合ガウス分布とか、次数「4」の多項式回帰とか もっと柔軟なモデルを作ろう モデルのパラメータ数をサンプル数によって可変にしよう ある意味、パラメータ数をに持っていく ノンパラメトリックなモデルはモデル選択をする必要性がない パラメトリックなモデル 有限個のパラメータ集合について考えている 新たなデータを予測するときには、前のデータとは独立なことを想定している 有限個のパラメータによって、データの特性全てを記述する 手に入るデータの量が限られていれば、モデルの複雑さは限定されてしまう

  • untitled

    辻井研演習3 単語クラスタリングの諸考察 岡野原 大輔 04/05/24 1 背景 集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類する クラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、 単語を分類したり、文書を分類するなど、多くのケースで使用されている。 単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、 得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決さ れ、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラス タリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数

    satzz
    satzz 2010/05/22
    岡野原さんの何か,2004