[B! 機械学習] gremorのブックマーク

gremor id:gremor

機械学習に関するgremorのブックマーク (3)

IIR chap 14: ベクトル空間分類 - Qiita
Introduction to Information Retrieval の14章輪読用 Gunosy研究会 #31 の資料です Introduction ナイーブベイズでは用語を用語列か2値ベクトルで表現した本章ではベクトル空間モデルを用いて文書を表現し，テキストを分類する．基本的な考え方ベクトル空間モデルでは各用語に対して1つの実数値の要素をもつベクトルとして各文書を表現する通常TF-IDFを用いる R^|V| のベクトルとして表現されるベクトル空間分類は連続性仮説(contiguity hypothesis)の元に成り立つ同じクラスの文書は連続した領域を形成し，他のクラスの領域とは重なり合わない．連続領域に写像されるかどうかは文書の表現方法による重み付け・ストップワードなど ex: "グループによって書かれた文書"と"個人によって書かれた文書"を区別したいケース一
gremor 2013/08/29
機械学習

ロッキオ分類

Information Retrieval

kNN
リンク
単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。なので、普段はDB上でSQL（というかHiveなど）でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり
gremor 2013/08/07
データ

データサイエンス

機械学習

統計

R
リンク
どんなデータでも(※)線形分離可能にしてしまう技術，Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner
急に蒸し暑くなってきましたね．でぶちんなのでけっこうこたえます．タイトルはちょっと釣り気味．ビビっと来た方は是非論文に目を通してみてください:) 例によって，仲間内でやっている小さな勉強会で論文紹介をしてきましたので，そのご紹介です．ぼくの専門というか興味の中心は自然言語処理なので，ふだんはそっち方面を追っているのですが，勉強会では機械学習方面を中心にいろいろ読んでみてます．今回は岡野原さんのこのツイートで興味を持った以下の論文を読ませていただきました．名前もかっこいい．ヴァニッシングコンポーネントアナリシス！ ICML2013のbestpaper。データ中の集合（例えば画像中の8の字など）が0になるような生成多項式を求める（=集合のコンパクトな表現）効率的なアルゴリズムを提案し教師有学習時の特徴生成などに使える。すごい http://t.co/DedSoyLaJR — 岡野原大輔 (
gremor 2013/07/10
データ

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx