[B! ml] [6ページ] incepのブックマーク

MALLET Classification from the Command Line

incep 2013/12/24

ml
nlp

リンク

情報ボトルネック (information bottleneck)† 情報ボトルネックはノンパラメトリックなソフトクラスタリング手法の一つ．クラスタリングされる離散確率変数 \(X\) と，\(X\) に関連した情報 \(Y\) を考える．例えば \(X\) が単語集合で，\(Y\) は文書クラスなど．ここで，\(X\) 中の要素を，それらと関連情報 \(Y\) の類似するように分割する．例えば，文書クラスを関連情報としたとき，同じクラスに現れやすい単語クラスタを獲得できたりする．形式的には次のような問題： \(X\) を \(\tilde{X}\) に分割する．この分割は，確率的写像 \(\Pr[\tilde{X}|X]\) で表し，次式を最小化するように定める． \[\mathcal{L}(\Pr[\tilde{X}|X])=\mathrm{I}(X;\tilde{X})-\b

incep 2013/12/11

リンク

Information bottleneck method - Wikipedia

incep 2013/12/11

リンク

Katz's back-off model - Wikipedia

incep 2013/12/02

リンク

HMMWeka

A package by Marco Gillies for the machine learning environment weka. Last update, 05/28/2015. This library makes Hidden Markov Model machine learning available in Weka. Download Download HMMWeka version 0.1.1 in .zip format. Installation This package may be installed using the weka package manager. From the main GUI Chooser select Tools->Package Manager. The package can be installed from the zip

incep 2013/11/22

HMM
ML

リンク

自然言語処理ツール

自然言語処理の研究で役立つツールを集めてみました。音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法（Knese

incep 2013/06/13

リンク

単純ベイズ分類器 - Wikipedia

単純ベイズ分類器（たんじゅんベイズぶんるいき、英: Naive Bayes classifier）は、単純な確率的分類器である。単純ベイズ分類器の元となる確率モデルは強い（単純な）独立性仮定と共にベイズの定理を適用することに基づいており、より正確に言えば「独立特徴モデル; independent feature model」と呼ぶべきものである。確率モデルの性質に基づいて、単純ベイズ分類器は教師あり学習の設定で効率的に訓練可能である。多くの実用例では、単純ベイズ分類器のパラメータ推定には最尤法が使われる。つまり、単純ベイズ分類器を使用するにあたって、ベイズ確率やその他のベイズ的手法を使う必要はない。設計も仮定も非常に単純であるにもかかわらず、単純ベイズ分類器は複雑な実世界の状況において、期待よりもずっとうまく働く。近頃、ベイズ分類問題の注意深い解析によって、単純ベイズ分類器の効率性に

incep 2013/05/01

ml

リンク

Perceptron Logic Unit

incep 2013/04/18

ml

リンク

強化学習とは？(What is Reinforcement Learning?)

強化学習の概要，応用上の利点，適用例，基礎理論，代表的手法，応用に必要な技術などの説明。本ページの記述は下記の解説記事をもとにWEB用に修正したものである：木村元，宮崎和光，小林重信：強化学習システムの設計指針，計測と制御, Vol.38, No.10, pp.618--623 (1999), 計測自動制御学会. 6 pages, postscript file, sice99.ps (1.31MB) PDF file, sice99.pdf (148KB) 第１章：強化学習の概要 1.1 強化学習 (Reinforcement Learning) とは? 1.2 制御の視点から見た強化学習の特徴 1.3 応用上期待できること第２章：強化学習の適用例：ロボットの歩行動作獲得第３章：強化学習の基礎理論 3.1 マルコフ決定過程(Markov decision proc

incep 2013/04/06

ML

リンク

独断と偏見によるノンパラ入門 - 木曜不足

「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。ノンパラの一番素朴なやつ( K-means とか)は本当にパラメータ無くてデータだけだから納得なんだけど、だんだん欲が出てパラメータ足しちゃったり派生させちゃったりしてるうちに、よくわかんなくなってきちゃったんだろうかねえ。まったく。どれどれ、と英語版 Wikipedia の "Non-parametric statistics" を見たら、なんか意味が4種類くらい書いてあるし。じゃあ名前分けろよ。 en.wikipedia.org とりあえずここで言う「ノンパラ」とは、変数の個数決めなくていい「分布の分布」なメタっぽいやつのこと。つまりディリクレ過程とか、ディリクレ過程とか、そこらへん。「あー、ノンパラベ

incep 2013/01/17

ノンパラメトリック統計的手法

ml

リンク

ベイズ推定を知っているフリをするための知識

最近はベイジアンが増えてきて、実用分野での利用も進んでいるようだ。話題としては知っておきたいが、世間一般には理解に混乱を生んでいるようだ。ベイズ推定は入門レベルの統計学の教科書ではオマケ的な扱いがされており、実際に伝統的な統計手法を拡張している面が強い。そういう意味では、誤解や混乱があっても仕方が無い。利用する必要があるのか無いのか良く分からない点も多いのだが、知らないと告白するのも気恥ずかしいかも知れない。自分ではベイズ推定で分析を行わない人が、ベイズ信者と話をあわせるために最低限知っておくべき事をまとめてみた。 1. ベイズ推定とは何か？ベイズ推定とは、ベイズの定理を応用した推定手法だ。端的に理解するためには、最尤法に事前確率を導入している事だけ覚えれば良い。これで哲学的議論を全て回避してベイズ推定を把握することができる。下の(1)式ではπ（θ）が事前確率、π(θ|x)が事後確

incep 2013/01/17

リンク

bogofilter + MeCab

bogofilter の日本語対応 (bogofilter+MeCab patch) 概要 bogofilterはベイズ推定をSPAMフィルターに応用したソフトウェアです。 MeCabは日本語を単語に分解し、品詞評価を行う形態素解析エンジンです。大雑把に言うと、ベイズ推定利用の肝は単語毎に統計を取るところにあります。元来日本語は、欧米系の言語と違い、単語を空白で区切らないという表記形式をとっており、そのままではこの単語毎の統計という処理がうまく働きません。そこで、一続きに書かれた日本語の文を単語に区切るという操作(分かち書き)が必要になります。これを行うのが形態素解析エンジンです。形態素解析エンジンとしては kakasiや ChaSenなどが知られています。ここではMeCabを採用しました。最近(2018現在)では解析精度の高いJUMANN++なるものもあるようです。(処理ス

incep 2012/12/13

リンク

KyTea - the Kyoto Text Analysis Toolkit

日本語 This is the home of the Kyoto Text Analysis Toolkit (KyTea, pronounced "cutie"). It is a general toolkit developed for analyzing text, with a focus on Japanese, Chinese and other languages requiring word or morpheme segmentation. Features Download/Install Documentation Analysis: Method Details, IO Formats, API Training: Training Models, Extra Models Domain Adaptation with KyTea Development Fea

incep 2012/12/10

リンク

大脳皮質と deep learning の類似点と相違点

脳とdeep learning のアーキテクチャには共通の特徴が多くありますが、脳にはあるのに現在(2012年時点)の deep learning にはない重要な特徴もあります。その中には deep learning の性能をさらに向上させる有望なヒントが含まれているのではないかと思います。そこで、大脳皮質と deep learning の類似点と相違点を簡単にまとめてみました。特に「脳は上の層ほど発火がスパース」「脳はあまり深くなくむしろ横に広い」「脳では領野ごとに強い個性がある」といった特徴は、重要なのではないかと思います。 ◆ 大脳皮質に見られる「深いネットワーク」大脳皮質の視覚野（腹側経路と背側経路）、聴覚野、体性感覚野、運動野には「深いネットワーク」の構造が見られる。これらの領域における主な領野の階層構造を [Felleman and Essen 1991]

incep 2012/12/08

リンク

Deep learning 用語集

deep learning とは、従来よりも多くの層を持ったニューラルネットを用いる機械学習技術です。 deep learning は、画像認識、音声認識などの分野で、いろいろなベンチマークで従来技術を超える性能を出しており、注目を集めています。私自身も勉強不足ですが僭越ながら、 deep learning 関連用語について自分の理解で簡単にまとめました。（挙げてある原論文もちゃんと読んでません！間違いがあればぜひご指摘ください。） Deep Learning auto-encoder または RBM などを積み重ねた深い構造を持つ機械学習器。従来は研究者が手作りしていた特徴抽出器を、代わりに大量のデータから学習させ自己組織化させるアプローチとも言える。 deep learning を特徴抽出器として使い、識別器としては最上位層でＳＶＭなどを使うこともある。 deep

incep 2012/12/08

リンク

Charming Python: Functional programming in Python, Part 3

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.