タグ

機械学習に関するgremorのブックマーク (3)

  • IIR chap 14: ベクトル空間分類 - Qiita

    Introduction to Information Retrieval の14章輪読用 Gunosy研究会 #31 の資料です Introduction ナイーブベイズでは用語を用語列か2値ベクトルで表現した 章ではベクトル空間モデルを用いて文書を表現し,テキストを分類する. 基的な考え方 ベクトル空間モデルでは各用語に対して1つの実数値の要素をもつベクトルとして各文書を表現する 通常TF-IDFを用いる R^|V| のベクトルとして表現される ベクトル空間分類は連続性仮説(contiguity hypothesis)の元に成り立つ 同じクラスの文書は連続した領域を形成し,他のクラスの領域とは重なり合わない. 連続領域に写像されるかどうかは文書の表現方法による 重み付け・ストップワードなど ex: "グループによって書かれた文書"と"個人によって書かれた文書"を区別したいケース 一

    IIR chap 14: ベクトル空間分類 - Qiita
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
  • どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner

    急に蒸し暑くなってきましたね.でぶちんなのでけっこうこたえます.タイトルはちょっと釣り気味.ビビっと来た方は是非論文に目を通してみてください:) 例によって,仲間内でやっている小さな勉強会で論文紹介をしてきましたので,そのご紹介です.ぼくの専門というか興味の中心は自然言語処理なので,ふだんはそっち方面を追っているのですが,勉強会では機械学習方面を中心にいろいろ読んでみてます. 今回は岡野原さんのこのツイートで興味を持った以下の論文を読ませていただきました.名前もかっこいい.ヴァニッシングコンポーネントアナリシス! ICML2013のbestpaper。データ中の集合(例えば画像中の8の字など)が0になるような生成多項式を求める(=集合のコンパクトな表現)効率的なアルゴリズムを提案し教師有学習時の特徴生成などに使える。すごい http://t.co/DedSoyLaJR — 岡野原 大輔 (

  • 1