Stream Processing Casual Talks #1 at Yahoo! JAPAN の発表資料です http://connpass.com/event/35264/Read less
論文紹介のコーナー.*1 今回紹介するのは,KDD'2011のUnbiased Online Active Learning in Data Streams (Wei Chu, Martin Zinkevich, Lihong Li, Achint Thomas, and Belle Tseng). Yahoo! Labsのグループによる研究です.(その後,第一著者はMicrosoftへ移動しています) 本論文は,ユーザーがコンテンツを生成できるウェブサービスから効率的にスパムやアダルトコンテンツを排除する手法について提案されています. このようなサービス形態はUser-Generated Content(UGC)と呼ばれ,ニュースサイトのコメント欄や掲示板・SNS・ソーシャルゲーム・ユーザー投稿型動画サイトが主な例として挙げられます. 3行概要 ストリームデータ環境下において,学習に有用
いつの間にかシリーズ化して、今回はロジスティック回帰をやる。自分は行列計算ができないクラスタ所属なので、入力が3次元以上 / 出力が多クラスになるとちょっときつい。教科書を読んでいるときはなんかわかった感じになるんだが、式とか字面を追ってるだけだからな、、、やっぱり自分で手を動かさないとダメだ。 また、ちょっとした事情により今回は Python でやりたい。Python のわかりやすい実装ないんかな?と探していたら 以下の ipyton notebook を見つけた。 http://nbviewer.ipython.org/gist/mitmul/9283713 こちらのリンク先に2クラス/多クラスのロジスティック回帰 (確率的勾配降下法) のサンプルがある。ありがたいことです。理論的な説明も書いてあるので ロジスティック回帰って何?という方は上を読んでください (放り投げ)。 この記事で
Adaptive Regularization of Weight Vectors Koby Crammer, Alex Kulesza, Mark Dredze(NIPS 2009) 機械学習勉強会 2010/07/01 東大中川研M1 大岩秀和 Introduction NLPなどの特徴次元数が大きい2値分類問題で高い性能を示す Online学習手法として、Confidence Weighted Linear Classification (以下、CW)と呼ばれるアルゴリズムが提案されている しかし、CWはLabel noiseに対して脆弱 Label noise:分類が間違っている教師データ 今回紹介する論文では、訓練例を正しく分類することを最重要とし ていたCWの問題点を改良したアルゴリズムを提案 Adaptive regularization of Weig
my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) I really enjoyed Mark Dredze's talk at EMNLP on multiclass confidence weighted algorithms, where they take their CW binary predictors and extend them in two (basically equivalent) ways to a multiclass/structured setting (warning: I haven't
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く