xiangzeのブックマーク - はてなブックマーク

コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?

岩波データサイエンス vol.2 の発刊を記念して、刊行トークイベント「統計的自然言語処理 - ことばを扱う機械」が 3月3日に開催されました。岩波データサイエンス Vol.2 : 岩波データサイエンス刊行委員会 : 本 : Amazon.co.jp トークイベント「統計的自然言語処理ーことばを扱う機械」（岩波データサイエンス Vol.2 刊行記念） - connpass イベントの様子はニコニコ動画さんで生中継されましたが、その録画は YouTube で公開させてもらっています。【トークイベント「統計的自然言語処理ーことばを扱う機械」（岩波データサイエンス Vol.2 刊行記念） - YouTube】 1. 挨拶と著者団トーク 2. 招待講演「本当は怖い統計的自然言語処理」(賀沢秀人; グーグル株式会社) 3. 自然言語処理についてのパネルセッション＋クロージング自然言語処理に詳

xiangze 2019/03/01

リンク

中華料理店過程のテーブル数の分布が見てみたい・実験編 #ぞくパタ - 木曜不足

今日のぞくパタ読書会の予習に「続・わかりやすいパターン認識」(以降「ぞくパタ」)の 11章をつらつら読む。 p227 に「CRP における使用テーブル数の変化」というグラフがあり、αが 2 と 10 のそれぞれにおいて、来客数が 1000 になるまでシミュレーションしたときのテーブル数の推移が示されているのだが、当然ながら一回の試行しか描かれていない。中華料理店過程(CRP)ないしホップの壺をちょっこり試すだけなら 10行ちょっとのスクリプトでできる話であり、実際やってみると、実行するたびにテーブルの増え方が結構変わる。つまり一回の試行ではぶっちゃけよくわからん。というわけで、α=2 について 1000 回シミュレーションを行い、来客数がそれぞれ 100, 200, 400, 600, 800, 1000 になったときのテーブル数の分布を箱ひげで描いてみた。ほとんどは中心の周辺にき

xiangze 2015/07/15

リンク

Python Lasagne でニューラルネットするチュートリアルその 1 - 木曜不足

@nishio さんに教えてもらったのだが、Lasagne というニューラルネットワークの Python ライブラリが Kaggle でけっこうよく使われているらしい。イタリア語読みすると「ラザーニェ」、Lasagna(ラザニア) の複数形なので、まあ日本人が呼ぶ分には「ラザニア」でいい気がする。 https://github.com/Lasagne/Lasagne 2015年6月現在でバージョンが 0.1.dev と、今手を出すのは人柱感満載。実際、自分の思ったとおりのモデルを動かすのはなかなかに大変だったので、そのメモを残しておく。インストールは別に難しいところはない。ただ Theano 前提なので、Python 2.7 でないと動かないし、Windows で動かすのは茨の道だろう。また、ドキュメントには "Install from PyPI" とあるくせに、pip ではイン

xiangze 2015/06/05

リンク

LDA の Collapsed Gibbs サンプリングの全条件付分布を導出してみる - 木曜不足

Latent Dirichlet Allocations(LDA) の実装について - 木曜不足にも出てくるこの式を導出してみる。この式は LDA の Collapsed Gibbs sampling で使う全条件付分布(full conditional)。もし普通のギブスサンプリングだったら、観測されていない全ての確率変数、つまり Z だけではなくθやφについても同様に全条件付分布を構成して、そこからサンプリングを繰り返すことが必要になる。*1 そこで、θとφについては積分消去してしまうことで、Z だけをサンプリングすればよいようにしたのが Collapsed Gibbs sampling。"collapsed" は積分消去して「つぶした」ということと、素の Gibbs sampling から「崩した」ということと、両方かかっているんだろうか？導出に必要な道具は次の2つ。ガン

xiangze 2015/03/14

リンク

「調査観察データの統計科学」3.1章傾向スコアの数式メモ（前半） - 木曜不足

【追記】社内勉強会資料を整えて公開しました。「調査観察データの統計科学」読書会資料を公開しました（数式周りをフォロー） - 木曜不足【／追記】みどりぼん(「データ解析のための統計モデリング入門」)を読み終わったから、というわけではないが、同じ岩波・確率と情報の科学シリーズの「調査観察データの統計科学」（星野崇宏）を読んでいる。調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者:星野崇宏発売日: 2009/07/29メディア: 単行本社内で週一開催している勉強会の自分の担当回でもこの「調査観察データの統計科学」を紹介。今は3章の傾向スコアの途中。勉強会向けに資料も作っているが、closed ということでいろいろ遠慮なくやらかしており、そのままだとちょっと公開できない（苦笑）。どうせ傾向スコアまでいかないと内容無いので、3章終わった

xiangze 2015/02/01

統計

リンク

Kneser-Ney スムージングによる文書生成 - 木曜不足

少し前に Kneser-Ney スムージングの性能を測ってみた記事を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキストファイル(複数可)を入力すると、1行1文書の訓練データとみなして Kneser-Ney スムージング付きの n-Gram 言語モデルを学習後、文書を生成してファイルに出力する。オプションもいくつか指定できるが、-h でヘルプを出すか、ソースを読むかしてもらえば。与えられた文書の確率を Kneser-Ney で計算するには、ディスカウントによって生じる正規化係数の補正を求めるために N1+ などのちょいややこしい値をあらかじめ計算して保持しておかないといけないが、文

xiangze 2014/04/29

NLP

リンク

言語判定のモデルパラメータを自己組織化マップで可視化 - 木曜不足

サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ通常のアドベントカレンダーと違って、テーマは「技術ならなんでも」って広すぎるやろー。というわけで言語処理な人には当たり前で、それ以外の人にはおそらく興味がないという、なかなかニッチな記事に（よく言えば）。本当は「なるほど、わからん」と言ってもらえるような記事が書きたくて、いくつかネタ候補を用意したんだけど、ことごとく自らボツに。実は先週の Kneser-Ney perplexity 記事もそんなボツネタの１つ。あの記事を一般技術者向けの Cybozu Inside Out に書いてみるという誘惑もあったんだけどねｗ他にも ldig のパラメータを可視化して遊んでみるというネタもあって、こ

xiangze 2013/04/25

リンク

共役勾配法をＲで - 木曜不足

たまには R のコード書いとかないと忘れる。ただでさえ R はいろいろ特殊だってのに。というわけで、勉強中の共役勾配法(conjugate gradient method)を R で書いてみた。といっても、pseudo code をそのまま落とし込んだだけなのだが。しかも線形。読んでいるのはこれ。 Jonathan Richard Shewchuk, "An Introduction to the Conjugate Gradient Method Without the Agonizing Pain" 「苦痛を伴わない共役勾配法入門」、略して「サルでもわかるＣＧ法」。ほんとわかりやすくて、びっくり。読者が知りたい内容にたどり着くにはこの順番で読んだらいいよ、というダイアグラムまで付いている。例えば(線形)共役勾配法は、4. Steepest Descent(最急降下法) →

xiangze 2012/01/17

リンク

WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました - 木曜不足

昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations from Shuyo Nakatani この発表は、過去に2回(自然言語処理勉強会＠東京(TokyoNLP) 第1回、確率の科学研究会第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。 CRF についてはズバッとはしょって、その代わりに系列ラベリングを本文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは

xiangze 2011/11/13

NLP

リンク

R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に) - 木曜不足

PRML ４章とかを読んで、ちょっと試しに識別器を実装してみたい！　というとき、初心者的にはデータセットをどこから持ってくるか、そのデータセットをどう使うか、実行結果をどうやってグラフなどに出力するか、といったあたりが悩み。 R はそのへんとてもよくできていて、すごくラクチン。まず結構な数の著名なデータセットがあらかじめ入っている。その一つである iris dataset を例に「識別器を試作するための準備」について説明していこう。 iris dataset は、３品種(setosa, versicolor, verginica)のユリの花それぞれ50本について、花の萼(がく)の長さと幅、花弁の長さと幅を測ったもの。 iris はデータがきれいに分かれているので、どんな識別器に食わせてもそこそこ良い結果が出る。初心者が達成感を得るのに最適(笑)。 R での iris データセットの利用は

xiangze 2011/06/18

リンク

はてなブックマーク

タグ

ブックマーク / shuyo.hatenablog.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス