タグ

2017年4月7日のブックマーク (3件)

  • クラスタ数を自動推定するX-means法を調べてみた - Qiita

    背景 前回、k-meansの最適なk数ってどうやって探すの?って記事を書きました ↓ コメント欄 というわけで、『X-means』を調べました クラスタ数を自動推定するX-means法について Pelleg and Moore (2000)が提案したK-meansの拡張アルゴリズム。 クラスター数Kを自動決定する k-meansをデータ数が多くても高速に動くようなアルゴリズムに工夫する という点が、従来のk-meansとの差分。 "x-means"でググると最初に出てくる2のpopularっぽい論文 X-means: Extending K-means with Efficient Estimation of the Number of Clusters | Carnegie Mellon Univ. (2000) x-meansの提案論文 クラスター数を自動決定するk-meansアルゴ

    クラスタ数を自動推定するX-means法を調べてみた - Qiita
  • カーネルとは直感的に説明するとなんなのか? - Qiita

    How to intuitively explain what a kernel is?に対する回答がわかりやすかったので和訳 まずは質問の意図から。 質問者は、「カーネルとは直感的に説明するとなんなのか?」を聞いています。それに対する回答のひとつが、上記のリンク先です。 和訳 カーネルとはふたつのベクトル $\boldsymbol{x}$ と $\boldsymbol{y}$ の内積を(たいていはとても高次元の)特徴空間で計算する方法であり、これがカーネル関数が時々「一般化内積」と呼ばれる理由です。 $\mathbb{R}^n$ 上にあるベクトルをなんらかの特徴空間 $\mathbb{R}^m$ へ写す写像 $\varphi:\mathbb{R}^n \rightarrow \mathbb{R}^m$ があるとします。すると、その空間での $\boldsymbol{x}$ と $\bol

    カーネルとは直感的に説明するとなんなのか? - Qiita
  • Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita

    少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。 サブワード ニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が

    Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita