Hadoop Summit 2012 - Hadoop and Vertica: The Data Analytics Platform at Twitter
![【17-E-3】 オンライン機械学習で実現する大規模データ処理](https://cdn-ak-scissors.b.st-hatena.com/image/square/27b5c209dce2cffd7bea086a002378ee1ad7c54c/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fjubatus201202rev07devfinal-120220043124-phpapp02-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
Some use-cases for building a classifier: Spam detection, for example you could build your own Akismet API Automatic assignment of categories to a set of items Automatic detection of the primary language (e.g. Google Translate) Sentiment analysis, which in simple terms refers to discovering if an opinion is about love or hate about a certain topic In general you can do a lot better with more speci
今回は、機械学習で使う「確率」のお話です。 確率は、統計的な機械学習のもっとも重要な基礎知識です。とはいえ、確率についてゼロから説明するというのは紙数的にも厳しいため、高校の確率を少し憶えているくらい(期待値や標準偏差など)を前提とし、「高校の確率」と「機械学習の確率」の本質的な相違点について、少し丁寧に見ていく、という形で進めていきます。 機械学習と確率 最初に、機械学習にとって確率はどういう役割なのかを確認しておきましょう。 実のところ、機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし、その他にも数多くの手法があります。しかし、「確率を用いない機械学習」の多くは、「結果のランキングを作りづらい(評価値の大小に意味がない)」「条件が異なる場合の結果を比較できない」などの欠点がありま
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
アクセスログのユーザエージェント(UA)からブラウザを判別するのって,みんな何使ってますか? 自分が作ったアクセス解析システムでは HTTP::BrowserDetect と HTTP::MobileAgent にそれぞれ独自パッチをあてたものを使っています。これらはルールベースの判定器なので,新しいブラウザや新種の bot が登場するたびに手作業でルールを追加し,パッチを作って配布するという作業が必要になります。 この更新作業が大変面倒くさくて対応が遅れがちになるので,「このUA文字列はこのブラウザですよ、という例を大量に与えたら、自分で勝手に判定ルールを学習してくれるようになったら便利なのになぁ」と思い,decision tree (決定木)を使ってみることを思い立ちました。 目標は, "Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1
TokyoWebmining_16 - Presentation Transcript 機械学習を使った英語習熟度の推定 @langstat TokyoWebmining #162011年11月27日(日)、株式会社ニフティ 1 自己紹介• 小林 雄一郎 (こばやし ゆういちろう) – 大阪大学大学院言語文化研究科/日本学術振興会 – 関心領域:コーパス言語学・テキストマイニング – ID: langstat(twitter、slideshare、はてな etc.) 2 • 研究の「思い」 – 言語学と言語処理と言語教育の架け橋になりたい 言語学 言語処理 統語論 意味論 音韻論 機械翻訳 構文解析 形態論 語用論 文体論 テキスト分類 文書要約 談話分析 社会言語学 文脈処理 評判分析 コーパス言語学 音声情報処理 etc. etc. リーディング ライティング リスニング スピーキング
overlasting.net 2020 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
以下の論文が面白かったので紹介したいと思います。Learning a Spelling Error Model from Search Query Logs Noisy Channel Modelによるスペル訂正エンジンスペル訂正には標準的なNoisy Channel Modelを使うことができます(最近は識別モデルも流行りのようです)。A Spelling Correction Program Based on a Noisy Channel ModelNoisy Channel Modelでは、入力が与えられたときの訂正候補の確率を以下のようにモデル化します。言語モデル はコーパスやクエリログから単語N-gram、文字N-gramなどを推定し、スムージングして利用することが一般的です。エラーモデル は入力と出力候補の編集距離をもとに計算することが多いです(他に共起頻度やクリックログを利
Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日本語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント
最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの
1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。 NL研 #signl200 まとめ(その2) - Togetter 単語のいくつかは残念ながらわからないが(笑)、「自然言語処理も機械学習も、どちらのアカデミックの世界にも身を置いたことのない門外漢のエンジニア」という立場で普段考えていることといろいろオーバーラップしている部分、齟齬を起こしている部分があって、思い出してはこれを読み返している。 まだあれこれ思い悩んでいる部分でもあるので、多分まとまらないし、明日にはまた違うことを考えてるかもなんだけど、ちょっと書き散らかしてみよう。 @mamoruk: 中川先生「自然言語処理分野外の人は自然言語処理のことを知
サキとは彼女の自宅近く、湘南台駅前のスーパーマーケットで待ち合わせをした。彼女は自転車で後から追いつくと言い、僕は大きなコインパーキングへ車を停めた。煙草を一本吸ってからスーパーマーケットへ向かうと、ひっきりなしに主婦的な女性かおばあちゃんが入り口を出たり入ったりしていた。時刻は午後5時になる。時計から目を上げると、待たせちゃったわねと大して悪びれてない様子でサキが手ぶらでやってきた。 お礼に料理を作るとはいえ、サキの家には食材が十分足りていないらしく、こうしてスーパーマーケットに寄ることになった。サキは野菜コーナーから精肉コーナーまで、まるで優秀なカーナビに導かれるように無駄なく点検していった。欲しい食材があると、2秒間程度それらを凝視し、一度手に取ったじゃがいもやら豚肉やらを迷うことなく僕が持っているカゴに放り込んだ。最後にアルコール飲料が冷やされている棚の前へ行くと、私が飲むからとチ
昨日の続き。 持橋さんの教師なし&半教師分かち書きについて、わかる範囲で説明してみる。 「分かち書き」とは文章を単語に区切ること。日本語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日頃感謝しまくっている人も多いだろう。 その MeCab は膨大な辞書と大量の正解データを使って作られた「教師ありの分かち書き」。教師あり学習のモデルである CRF(Conditional Random Fields) を用いている。 教師ありのため、辞書に載ってない言葉や、正解データに現れていない区切り方は苦手。それらが用意されていない言語や方言(話し言葉含む)は、満足に分かち書きできない。 そこで「教師なし分かち書き」ができたらいいな、という話になる。これは大量の文章さえ与えたら、そこから単語の区切り方を自動的に判断できるようになる、という夢のよ
最近の論文で The Learning Behind Gmail Priority Inbox D.Aberdeen, O.Pacovsky & A.Slater というのがある。これはGmailの優先トレイで使っている機械学習のアルゴリズムについて解説したもの。というと難しそうな印象があるが、この論文で紹介されているPassive-Aggressiveという手法は実装がとても簡単。なので今回はこれについて解説するよ。 参考資料: Gmail - 優先トレイ Online Passive-Aggressive Algorithms K.Crammer et al. The Learning Behind Gmail Priority Inbox読んだメモ - 糞ネット弁慶 わかりやすい日本語解説 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBl
最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。 そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。 そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。 機械学習を「作りたい」のか「使いたいのか」 まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。 「最も簡単な機械学習はナイーブベイズ」という幻想 機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか
忘れないうちにメモ.中国の学会で感心した発表の一つに以下のような研究があった. Discriminant Ranking for Efficient Treebanking ポスター発表を聴講しただけなので,誤解しているところもあるかも知れないが,話としては単純で,曖昧性解消の注釈付けをする際に,作業者自身の履歴から曖昧性解消モデルを学習して注釈付け候補をリランキングして作業者に提示する,というもの.実際の作業を通して効果を計測しているのも良く,約1.5倍注釈付けが高速化される上,inter-rator agreement も上がったとのこと. この研究自体も面白いのだけど,人を分類器とみなして,機械学習の文脈で対応する手法を考えるとさらに興味深い.アプローチとしては, Revision Learning and its Application to Part-of-Speech Tagg
Index of /Uploads NameLast modifiedSizeDescription Parent Directory - Ada_Boost.m 2008-11-17 13:06 3.1K Bottom_Up_Parsing.m 2008-11-17 13:06 2.2K C4_5.m 2008-11-17 13:06 6.7K DHSchapter2_fixed.mat 2008-11-17 13:06 598 Grammatical_Inference.m2008-11-17 13:06 4.2K Marginalization.m 2008-11-17 13:06 1.9K PPT.m 2008-11-17 13:06 1.8K SVM.m 2008-11-17 13:06 7.8K Sequential_Feature_S..>2008-11-17 13:06
Free AI Photo Editor Powerful AI toolset for all your creative photo and design editing needs. Remove background, objects, and watermarks. Apply generative fill to add objects or expand photos. Upscale and unblur to add the last finishing touches. Start Editing with AI AI Photo Editing Tools Our tools are specifically fine tuned to deliver the best-in-class results. New tools are being added const
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く