今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス
肝心のMCMCの勉強はどこ行ったゴルァとか怒られるとアレなんですが、先にツールの使い方覚えてしまおうと思ってStanで簡単な練習をやってみました。ちなみに参考にした資料はこちら。 Stanチュートリアルの資料を作成しました。 - Analyze IT. StanTutorial 割とよく一緒に飲んでるid:EulerDijkstra氏のブログがとにかく役に立ちました。ありがとさんです!!! あと、MCMCやるのはこれが初めてという人は最低限久保先生の緑本ぐらいは読んでおいて損はないと思います。ただしStanではなくWinBUGSを{R2WinBUGS}で回す系ですが。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人 クリック
Yoshihiro Sato @yoshisatose 最近、TLで偽陽性の話題を目にするので、一つ練習問題を紹介します。これは昨秋、私が担当している統計学(1年生向け)の試験で出題した問題で、あとで複数の学生から「とても面白い問題だった」という反応がありました。「ベイズの定理」の問題なので、分かる人には簡単です。四則演算で解けます。 Yoshihiro Sato @yoshisatose 【問題】 人口の5%がある病気に罹っているとします。この病気に罹っているかどうかを確かめる検査があるのですが完全なものではなく、病気に実際に罹っている人が受けると90%の確率で陽性となり、病気に罹っていない人が受けると90%の確率で陰性と出ます。(続く…)
はじめに Wekaのベイズネットワークエディタおよび分類器(weka.classifiers.bayes.BayesNet)の使い方についてまとめます。 ベイジアンネットワークについてはWikipedia、またWekaについては公式ページおよびマニュアルを参照ください。 Wekaではベイジアンネットワークに関する以下機能が実装されています。 ベイズネットワークエディタ: ネットワークを作成する 作成したネットワークをXML形式で読み書きする ノードに条件付き確率を与える 証拠データを設定した時の各ノードの確率を求める 確率分布に沿ってデータセット(.arff形式)を作成する データセットを使った学習を行う 分類器: データセットからネットワーク構造を学習する 学習したネットワーク構造を検証する 学習したネットワーク構造を図示する ネットワーク構造をXMLファイルに出力する これらを以下の
BN2002 招待講演/特別セッションプログラム チュートリアル:ベイジアンネット入門 佐藤 泰介(東京工業大学) [paper][presentation][photo] チュートリアル:ベイジアンネット実践編 本村 陽一(産業技術総合研究所) [paper][presentation][photo] 招待講演:実世界情報処理とベイジアンアプローチ 大津 展之先生(産業技術総合研究所フェロー/東京大学) [paper][presentation][photo] <特別セッション「Belief Propagation」> 招待講演 統計力学の視点から 樺島 祥介先生(東京工業大学) [paper] [presentation] [photo] 招待講演 情報幾何の視点から 池田 思 朗先生(九州工業大学/科学技術振興事業団) [paper] [presentation] [photo] 招
lyricsemiconductor.com is for sale Please prove you're not a robot
ナイーブベイズを用いたテキスト分類(2010/6/13)の続きです。前回、実装したナイーブベイズの分類精度を評価してみます。テキスト分類のベンチマークとして使われるのは Reuters-21578 20 Newsgroups といったデータセットです。今回は、ナイーブベイズの分類精度を20 Newsgroupsで評価してみたいと思います。論文は散々読んだけど自分で試すのは初めてなんだよなー。 20 Newsgroups http://qwone.com/~jason/20Newsgroups/ Usenet*1から収集した約20000文書、20カテゴリのデータセットです。カテゴリは下の20個。まあ何となくどんなカテゴリなのかわかりますね。おおまかにcomp、rec、sci、talkに分けられるので4カテゴリとして扱うこともあるようです。 comp.graphics comp.os.ms-w
パターン認識と機械学習 - ベイズ理論による統計的予測† This is a support page for the Japanese edition of "Pattern Recognition and Machine Learning" authored by C. M. Bishop. 本書は,Christopher M. Bishop 著「Pattern Recognition and Machine Learning」の日本語版です.上下2巻の構成です. パターン認識や機械学習の各種のアルゴリズムや背後の考えについて,ベイズ理論の観点から解説した教科書です. 基礎的な線形モデルから,カーネルトリック,グラフィカルモデル,MCMCなどの発展的な話題までをバランス良く収録しています. 数式による形式的な記述だけにとどまらず,豊富なカラーの図による直観的な説明もなされています. 本
都会よりも田舎が好きなfujisawaです。Bayesian Setsというアルゴリズムを使って、関連する文書を高速・高精度に検索できるシステムを作成しましたので、そのご紹介をさせていただきます。 Bayesian Setsとは Bayesian Setsはいくつかアイテムを入力すると、それを補完するようなアイテムを返してくれるアルゴリズムです。原著論文の先頭に"Inspired by Google Sets"と書かれているように、Google Setsを参考にして作成されています。実際にどのような出力が得られるか、Google Setsに以下の表のクエリを検索して試してみますと、 クエリ 出力 apple, banana chocolate, strawberry, vanilla, cherry, ... apple, macintosh software, windows, mac,
In search of a new car, the player chooses a door, say 1. The game host then opens one of the other doors, say 3, to reveal a goat and offers to let the player switch from door 1 to door 2. The Monty Hall problem is a brain teaser, in the form of a probability puzzle, based nominally on the American television game show Let's Make a Deal and named after its original host, Monty Hall. The problem w
モンティ・ホール問題 閉まった3つのドアのうち、当たりは1つ。プレーヤーが1つのドアを選択したあと、例示のように外れのドアが1つ開放される。残り2枚の当たりの確率は直感的にはそれぞれ 1/2(50%)になるように思えるが、はたしてそれは正しいだろうか。 モンティ・ホール問題(モンティ・ホールもんだい、英: Monty Hall problem)とは、確率論の問題で、ベイズの定理における事後確率、あるいは主観確率の例題の一つとなっている。モンティ・ホール(英語版)(Monty Hall, 本名:Monte Halperin)が司会者を務めるアメリカのゲームショー番組、「Let's make a deal(英語版)[注釈 1]」の中で行われたゲームに関する論争に由来する。一種の心理トリックになっており、確率論から導かれる結果を説明されても、なお納得しない者が少なくないことから、モンティ・ホール
今、流行のベイズ分析についての解説と思いきや、その手の解説はあまりない。マルコフ連鎖、ベイジアンネットワーク、ラプラス補正、リフトチャート、ROIチャート、混同マトリクスとか専門用語がつぎつぎと出てくるが、なんのことだか意味するところがフォローできない。 ただ、いろいろな事例が紹介されている。クレジットカードの使用のパターンをベイズ的に解析することでカードコピーによる不正利用を見つけることができるという実例には驚いた(後で知ったけれどこれは結構有名らしい)。しかし、本書が最初の導入段階で看過できない間違いを含んでいることにはもっと驚いた。 この本のはじめに出てくる(モンティホール問題のような)例を見てみよう。本書の記述を素直に読めば本書で計算しているようなモンティホールジレンマと呼ばれる現象がこの例では起きないことが分かる。本書では5つのカードに1つだけアタリあり、残りはハズレというくじの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く