Code Archive Skip to content Google About Google Privacy Terms
ICML2008で発表されたDredzeらのConfidence Weighted Linear Classificationを読んだ。これは線形分類器を学習する新しいオンライン学習型アルゴリズムの提案である。すぐに使える実装としてはOLLというオープンソースのライブラリがあり、実際に良い実験結果が出ているようだ。 Confidence Weightedのアイデアは、よく出てくる素性に関しては一回の更新における数値の変更量を減らしてやり、あまり出てこない素性に関しては、一回の更新でぐっと値を変更してやろう、というものである。 こういった新しい更新方法を考案した動機を明らかにするために、Perceptronを使って、単語を素性として評判分類の学習を行うような問題を考えてみる。肯定的な評価のサンプルとして"I liked this author."というものがあったとすると、このサンプルの分類
2. 自己紹介:徳永 拓之 ● twitter id:tkng ● (株) Preferred Infrastructure 勤務 ● 守備範囲:レコメンド・NLPなど ● カレーを食べるのが趣味 ● 上野デリーのコルマカレーが好きです ● 早売りの週刊少年ジャンプを読むのも好き 3. 宣伝:NLP2011で発表します C4-6 日本語かな漢字変換における識別モデル の適用とその考察 ○徳永拓之, 岡野原大輔 (PFI) 3月10日(木) 13:00-15:30 (A1-201教室) ● 今日の発表でここが一番NLPっぽい 4. 発表の概要 ● ランク学習とは ● Confidence Weightedとは ● Confidence Weightedによるランク学習 中身の薄い発表なのでゆったりと リラックスした気持ちで聞くのが オススメ!
カリー=ハワード同型(Curry-Howard isomorphism)は数学の一見無関係に思えるふたつの領域、型理論と構造論理を結びつける実に驚くべき関係である。 導入[編集] これよりカリー=ハワード同型は単に C-H と表記する。C-H が示しているのは、定理の本質を反映するような型を構築し、それからその型を持つ値を見つけさえすれば、どんな数学的定理をも証明することができる、ということだ。これは最初は極めて不思議に思える。型と定理にどんな関係があるというのだろうか?しかしながら、以下に述べるように、このふたつは非常に近しい関係にあるのである。はじめる前に簡単に注意しておくが、導入の章では error や undefinedのような 表示的意味論 が ⊥ である式の存在は無視する。これらはとても重要な役割を果たすのだが、これらについては後ほど別に考えることにする。また、unsafeCo
Statistics Favorites 0 Downloads 0 Comments 0 Embed Views 0 Views on SlideShare 0 Total Views 0 機械学習のPythonとの出会い(1):単純ベイズ基礎編 — Presentation Transcript 機械学習のPythonとの出会い (1) 単純ベイズ:入門編 神嶌 敏弘 ( http://www.kamishima.net/ ) Tokyo.Scipy #4 (2012.06.18) 1 自己紹介• 専門について • 機械学習やデータマイニングが専門と名乗ってます • PRML本とか翻訳しましたが,変分ベイズとか,MCMC とか複雑 なことは全然してません • 手法を深掘りすることよりも,新しい問題設定を考えて,できるだ け簡単な方法で解くようにしたいと思ってます• NumPy / Sc
画像として与えられた数独を解きます。 新聞に掲載されていたこの問題をOpenCVを使って画像解析する。(画像が斜めなのはワザとです) グレースケール変換画像解析の前処理として、まずグレースケールに変換し、ガウシアンフィルタをかけてぼかします。ガウシアンフィルタをかける事で、安定した二値化画像が得られます。 二値化次に二値化を行います。 二値化には、普通の方法、大津さんの手法、適応的二値化、などさまざまな手法が在ります。いろいろ試した所、適応的二値化(Adaptive Threshold)が最も数独の認識に適していることが解りました。 適応的二値化(Adaptive Threshold)であれば、影になってしまった部分も上手く処理できます。 膨張処理次に、数独の盤面の外枠を認識を行います。 二値化の影響で枠線が途切れてしまう可能性がありますので、膨張処理(dilate)を行います。 (膨張処
C2: Clojure(Script) data visualization C2 is a Clojure and ClojureScript data visualization library heavily inspired by Mike Bostock’s Data Driven Documents. C2 lets you declaratively create HTML and SVG markup based on data: (ns bars (:use [c2.core :only [unify]]) (:require [c2.scale :as scale])) (let [width 500, bar-height 20 data {"A" 1, "B" 2, "C" 4, "D" 3} s (scale/linear :domain [0 (apply ma
1. JavaScript における重要な概念 久しぶりに JavaScrip を書こうと思ったら、ほとんど頭の中から抜けている。 (+_+) this とか prototype って何だっけ?というレベル。てゆうか考えてみたら、その辺読んだけど何かごちゃごちゃしていて頭に入らなったので面倒くさくなって言語仕様読むのやめたんだった。 ^^; シンプルなもの以外理解も記憶もできない。 ところで、以前に JavaScript のコードを書くときに参考にした本は、 JavaScript に関する本は、これしかまともに読んだことがない。 特に以下の部分が、JavaScript を使う上で参考になった。 3.9 グローバル領域の利用を減らす, p28 4.10 クロージャ, p43 5.2 オブジェクト指定子, p57 5.4 関数型, p59 上記の内容を思い出すために、例を考えながら、
最終更新日: 2000-11-14 (公開日: 2000-11-14) Suffix Arrayは巨大なテキストを高速に検索するためのデータ構造 です。テキストのサフィックスを辞書順 (ABC順) に並べ、それに 対するポインタを配列として格納したものが Suffix Array です。 サフィックスとはテキスト中のある位置からテキスト末尾までの文 字列のことをいいます。テキストへの検索は Suffix Array を用い て 2分探索の要領で行います。 では、 Suffix Arrayの構築に移りましょう。ここでは ``abracadabra''というテキストに対して Suffix Array を作成す ることにします。 まず最初に、テキストに対してインデックスポイントを割り当てる 必要があります。インデックスポイントは、検索が行える位置を指 定したものです。この例では、どの位置からでも
FreeBSD - The Power To Serve why GNU grep is fast (なぜGNU grepは高速なのか)といったタイトルの興味深いメールがFreeBSD開発者メーリングリストに投函された。メールを出したのはGNU grepのオリジナル開発者であるMike Haertel氏。Mike Haertel氏はFreeBSDユーザでもあり、FreeBSD開発者メーリングリストで興味深いやりとりがあったため、このメールを流したとしている。Mike Haertel氏の紹介する内容はgrep(1)の実装のみならず、高速な文字列処理を実現するひとつの方法として参考になる。紹介されているGNU grep高速さの秘訣は次のとおり。 GNU grepは入力バイトのすべてをチェックするようなことは避けている。 GNU grepはバイトごとに適用する操作を極力最小限に減らしている。 G
追加ライブラリのインストール手順[編集] 「Carbon Emacs パッケージ」の Emacs は 全ファイルがアプリケーションアイコンの中に入っていて、主なディレクトリは (Emacs.app)/Contents/Resources の下に展開されています。小さなライブラリを使う場合は ファイルを site-lisp ディレクトリに置くだけで大丈夫でしょう。 メニューバーの 「Help > Carbon Emacs Package > Open Site-Lisp Directory」を 選ぶと Finder で site-lisp ディレクトリを開くことができます。 $ ls (Emacs.app)/Contents/Resources CVS English.lproj leim man var Emacs.icns etc lib share Emacs.rsrc info li
2008年1月24日 MigemoをLeopardにインストール 日本語を使うEmacsユーザにとってMigemoは欠かせない。一度使ったら手放せないツールである。Migemoとは、オフィシャルページをそのまま引用するとMigemo はローマ字のまま日本語をインクリメンタル検索するためのツールです。かな漢字変換をすることなく日本語のインクリメンタル検索を快適に行うことができます。wgetのインストールMigemoをインストールするときにはwgetがあったほうが便利である。Leopardにはwgetコマンドがついてこないので、MacPortsから入れた。% sudo port install wget ---> Fetching wget ---> Attempting to fetch wget-1.10.2.tar.gz from http://ftp.gnu.org/gnu/wget
3月28日 農業は地球の環境悪化の緩和に重要な役割を果たす フランス農学・獣医学・林学研究院 アグリニウム会長 マリオン・ギュー 氏 3月8日 近未来SF漫画で描かれるテクノロジーの未来 漫画家 山田胡瓜さん 12月28日 「世界中の望遠鏡が協力して中性子星合体を観測 ―重力波と光の同時観測『マルチメッセンジャー天文学』の幕開けは、何を意味するのか?」 理化学研究所仁科加速器研究センター 玉川 徹 氏 5月1日 「次のアインシュタインはアフリカから」―フォーラム「NEF」第2回会合開催 国際部 4月20日 《JST主催》『女性研究者と共に創る未来』公開シンポジウムを開催 「科学と社会」推進部 4月13日 《JST共催》『ひかり×ひと』-『情報ひろばサイエンスカフェ』で大学院生と中高生らが語り合う 「科学と社会」推進部 4月11日 信頼できるがんの最新情報を届ける ―国立がん研究センターとヤ
『坊っちゃん』自筆原稿 読みやすい文章とは、流れるように読める文章だ。難しい言葉はいらない。気のきいた言葉もいらない。文頭から文末まで振り返ることなく読める文章が、最も美しい。 読みやすさの基準は客観的なものだ。読み手には様々な人がいる。老若男女すべての人に対して読みやすい文章を書くのは難しい。ただ、綺麗な文章を書こうとする意識は持ちたい。 文章を書く上で意識すべき技法を紹介する。 常体と敬体 常体とは「だ・である」調の文章であり、敬体とは「です・ます」調の文章を指す。それぞれにメリットとデメリットがある。 常体は、自分の意思を力強く伝える事ができるが、我の強い文章になる。敬体は、優しい印象で共感を得やすいが、まわりくどい文章になる。 常体と敬体を織り交ぜて書く手法もある。まずは自分で試してみて、書きやすい文体を見つければいい。 文章の始まりは短く 最初の一文は短いほうがいい。インパクトが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く