タグ

ブックマーク / shuyo.hatenablog.com (10)

  • コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?

    岩波データサイエンス vol.2 の発刊を記念して、刊行トークイベント「統計的自然言語処理 - ことばを扱う機械」が 3月3日 に開催されました。 岩波データサイエンス Vol.2 : 岩波データサイエンス刊行委員会 : : Amazon.co.jp トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - connpass イベントの様子はニコニコ動画さんで生中継されましたが、その録画は YouTube で公開させてもらっています。 【トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - YouTube】 1. 挨拶と著者団トーク 2. 招待講演「当は怖い統計的自然言語処理」(賀沢秀人; グーグル株式会社) 3. 自然言語処理についてのパネルセッション+クロージング 自然言語処理に詳

    コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?
    xiangze
    xiangze 2019/03/01
  • 中華料理店過程のテーブル数の分布が見てみたい・実験編 #ぞくパタ - 木曜不足

    今日のぞくパタ読書会の予習に「続・わかりやすいパターン認識」(以降「ぞくパタ」)の 11章をつらつら読む。 p227 に「CRP における使用テーブル数の変化」というグラフがあり、αが 2 と 10 のそれぞれにおいて、来客数が 1000 になるまでシミュレーションしたときのテーブル数の推移が示されているのだが、当然ながら一回の試行しか描かれていない。 中華料理店過程(CRP)ないしホップの壺 をちょっこり試すだけなら 10行ちょっとのスクリプトでできる話であり、実際やってみると、実行するたびにテーブルの増え方が結構変わる。つまり一回の試行ではぶっちゃけよくわからん。 というわけで、α=2 について 1000 回シミュレーションを行い、来客数がそれぞれ 100, 200, 400, 600, 800, 1000 になったときのテーブル数の分布を箱ひげで描いてみた。 ほとんどは中心の周辺にき

    中華料理店過程のテーブル数の分布が見てみたい・実験編 #ぞくパタ - 木曜不足
  • Python Lasagne でニューラルネットするチュートリアル その 1 - 木曜不足

    @nishio さんに教えてもらったのだが、Lasagne というニューラルネットワークの Python ライブラリが Kaggle でけっこうよく使われているらしい。 イタリア語読みすると「ラザーニェ」、Lasagna(ラザニア) の複数形なので、まあ日人が呼ぶ分には「ラザニア」でいい気がする。 https://github.com/Lasagne/Lasagne 2015年6月現在でバージョンが 0.1.dev と、今手を出すのは人柱感満載。 実際、自分の思ったとおりのモデルを動かすのはなかなかに大変だったので、そのメモを残しておく。 インストールは別に難しいところはない。 ただ Theano 前提なので、Python 2.7 でないと動かないし、Windows で動かすのは茨の道だろう。 また、ドキュメントには "Install from PyPI" とあるくせに、pip ではイン

    Python Lasagne でニューラルネットするチュートリアル その 1 - 木曜不足
  • LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足

    Latent Dirichlet Allocations(LDA) の実装について - 木曜不足 にも出てくるこの式 を導出してみる。 この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。 もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか? 導出に必要な道具は次の2つ。 ガン

    LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足
  • 「調査観察データの統計科学」3.1章 傾向スコアの数式メモ(前半) - 木曜不足

    【追記】 社内勉強会資料を整えて公開しました。 「調査観察データの統計科学」読書会資料を公開しました(数式周りをフォロー) - 木曜不足 【/追記】 みどりぼん(「データ解析のための統計モデリング入門」)を読み終わったから、というわけではないが、同じ岩波・確率と情報の科学シリーズの「調査観察データの統計科学」(星野崇宏)を読んでいる。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者:星野 崇宏発売日: 2009/07/29メディア: 単行 社内で週一開催している勉強会の自分の担当回でもこの「調査観察データの統計科学」を紹介。今は3章の傾向スコアの途中。 勉強会向けに資料も作っているが、closed ということでいろいろ遠慮なくやらかしており、そのままだとちょっと公開できない(苦笑)。どうせ傾向スコアまでいかないと内容無いので、3章終わった

  • Kneser-Ney スムージングによる文書生成 - 木曜不足

    少し前に Kneser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。 スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行1文書の訓練データとみなして Kneser-Ney スムージング付きの n-Gram 言語モデルを学習後、文書を生成してファイルに出力する。 オプションもいくつか指定できるが、-h でヘルプを出すか、ソースを読むかしてもらえば。 与えられた文書の確率を Kneser-Ney で計算するには、ディスカウントによって生じる正規化係数の補正を求めるために N1+ などのちょいややこしい値をあらかじめ計算して保持しておかないといけないが、文

    Kneser-Ney スムージングによる文書生成 - 木曜不足
    xiangze
    xiangze 2014/04/29
  • 言語判定のモデルパラメータを自己組織化マップで可視化 - 木曜不足

    サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。 言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ 通常のアドベントカレンダーと違って、テーマは「技術ならなんでも」って広すぎるやろー。というわけで言語処理な人には当たり前で、それ以外の人にはおそらく興味がないという、なかなかニッチな記事に(よく言えば)。 当は「なるほど、わからん」と言ってもらえるような記事が書きたくて、いくつかネタ候補を用意したんだけど、ことごとく自らボツに。実は先週の Kneser-Ney perplexity 記事もそんなボツネタの1つ。あの記事を一般技術者向けの Cybozu Inside Out に書いてみるという誘惑もあったんだけどねw 他にも ldig のパラメータを可視化して遊んでみるというネタもあって、こ

    言語判定のモデルパラメータを自己組織化マップで可視化 - 木曜不足
  • 共役勾配法をRで - 木曜不足

    たまには R のコード書いとかないと忘れる。 ただでさえ R はいろいろ特殊だってのに。 というわけで、勉強中の共役勾配法(conjugate gradient method)を R で書いてみた。といっても、pseudo code をそのまま落とし込んだだけなのだが。しかも線形。 読んでいるのはこれ。 Jonathan Richard Shewchuk, "An Introduction to the Conjugate Gradient Method Without the Agonizing Pain" 「苦痛を伴わない共役勾配法入門」、略して「サルでもわかるCG法」。 ほんとわかりやすくて、びっくり。 読者が知りたい内容にたどり着くにはこの順番で読んだらいいよ、というダイアグラムまで付いている。 例えば(線形)共役勾配法は、4. Steepest Descent(最急降下法) →

    共役勾配法をRで - 木曜不足
  • WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足

    昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 文抽出」について話をさせていただきました。 CRF を使った Web 文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会@東京(TokyoNLP) 第1回、確率の科学研究会 第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは

    WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足
    xiangze
    xiangze 2011/11/13
  • R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に) - 木曜不足

    PRML 4章とかを読んで、ちょっと試しに識別器を実装してみたい! というとき、初心者的にはデータセットをどこから持ってくるか、そのデータセットをどう使うか、実行結果をどうやってグラフなどに出力するか、といったあたりが悩み。 R はそのへんとてもよくできていて、すごくラクチン。 まず結構な数の著名なデータセットがあらかじめ入っている。その一つである iris dataset を例に「識別器を試作するための準備」について説明していこう。 iris dataset は、3品種(setosa, versicolor, verginica)のユリの花それぞれ50について、花の萼(がく)の長さと幅、花弁の長さと幅を測ったもの。 iris はデータがきれいに分かれているので、どんな識別器にわせてもそこそこ良い結果が出る。初心者が達成感を得るのに最適(笑)。 R での iris データセットの利用は

    R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に) - 木曜不足
  • 1