タグ

MLに関するsuikyoのブックマーク (27)

  • Deep LearningとConvolutional Neural Network - Stimulator

    - はじめに - 前回機械学習ライブラリであるCaffeの導入記事を書いた。今回はその中に入ってるDeep Learningの一種、Convolutional Neural Network(CNN:畳み込みニューラルネットワーク)の紹介。 CNNは今話題の多層ニューラルネット、Deep Learningの一種であり、画像認識等の分野に大きな成果をもたらしています。 まあCNNすごい。当、画像認識系だと一強といった感じ。 実装経験もあるのでよしなに書いてみようという記事。 追記:2018-10-24 この記事は2014年終盤、Deep Learningに関連するネット記事も数個しかなく、各論文でもCNNに関する理解が分かれていたような時期に、大学生であった筆者が書いた記事です。概念の理解の助けになるよう残していますが、正しくない箇所も後々多く出てくるかと思います。考慮の上、お読み頂ければと

    Deep LearningとConvolutional Neural Network - Stimulator
    suikyo
    suikyo 2016/01/19
  • 第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP

    Toshinori Sato @overlast 詳細に@conditionalさん、@iwiwiさん、@nakajijiさん、@nokunoさん、@tsubosakaさんのご発表のタイトルを追加しました | 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 http://t.co/I3D7NS11Y5 2014-01-08 11:21:51 langstat @langstat 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネ スペシャル http://t.co/R2P7PPVd25 1月11日、スマートニュース。「以下の条件に"一つも合致しない方"は、(中略)発表資料を作ってきて下さい」って、斬新。。。 2014-01-08 22:14:15 散歩𝕏 @PENGUINANA_ DSIRNLPの5分枠の発表資料アッ

    第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP
    suikyo
    suikyo 2016/01/19
  • 入力メソッドワークショップ 2013

    Mamoru B Komachi @mamoruk 入力メソッドワークショップ #IM2013 始まりました〜。最初はNAIST久保さんによる、Pronunciation Estimation with Online Discriminative Learning using Second Order Statisticsです!

    入力メソッドワークショップ 2013
    suikyo
    suikyo 2016/01/19
  • Fighting spam with BotMaker

    Spam on Twitter is different from traditional spam primarily because of two aspects of our platform: Twitter exposes developer APIs to make it easy to interact with the platform and real-time content is fundamental to our user’s experience. These constraints mean that spammers know (almost) everything Twitter’s anti-spam systems know through the APIs, and anti-spam systems must avoid adding latenc

    Fighting spam with BotMaker
    suikyo
    suikyo 2014/08/21
    すばらしい
  • 福島ラビット - Google

    Join the official community for Google Workspace administrators In the Google Cloud Community, connect with Googlers and other Google Workspace admins like yourself. Participate in product discussions, check out the Community Articles, and learn tips and tricks that will make your work and life easier. Be the first to know what's happening with Google Workspace. ______________ Learn about more Goo

    福島ラビット - Google
    suikyo
    suikyo 2014/07/11
  • 音声認識でかつてNNがHMMに敗北した状況まとめ

    音声認識を長年研究されている @akinori_ito 先生が、2000年以前に起こったNNとHMMの競争の流れについてツイートしてくださいました。

    音声認識でかつてNNがHMMに敗北した状況まとめ
    suikyo
    suikyo 2013/10/19
  • 「ニコニコ動画コメント等データ」を研究用に提供開始 - 国立情報学研究所 / National Institute of Informatics

    大規模ソーシャルメディアデータは情報学研究のターゲットとして大きな注目を浴びており、ニコニコ動画も研究データとして大きな可能性があります。 国立情報学研究所 情報学研究データリポジトリ(IDR)では、株式会社ドワンゴの協力の下、ニコニコ動画のコメント等データを広く公開し、研究の用途に供することと致しました。 データはニコニコ動画に昨年11月初旬までに投稿された約830万件の動画のメタデータ(タイトル、説明文、タグ、投稿日時、再生数等)約12GBと、それに対するコメントデータ(コメント文、投稿日時、コメント位置等)約300GBです。動画データ体および個人を特定するユーザIDは含まれません。 データは研究目的であればどなたでもご利用いただけます。希望される方は下記サイトより利用申請をして下さい。 情報学研究データリポジトリ ニコニコ動画コメント等データ

    「ニコニコ動画コメント等データ」を研究用に提供開始 - 国立情報学研究所 / National Institute of Informatics
  • 【ニコ動研究】ニコニコ動画研究を調べてみた

    はじめに ニコニコ動画は株式会社ニワンゴが提供している動画共有サイトです. 2006年1月にサービス開始し,2010年3月の時点で登録会員数は1895万(有料会員数は2012年1月の時点で150万人)を数え,登録された動画数は700万を越えています. 基的なサービスは世界的に有名な動画共有サイトであるYouTubeとほぼ同じですが,幾つかのユニークな機能を持ち,急速に多くのユーザを獲得しました. そのユニークな機能的特徴,そして集まったユーザたちの文化的特徴により,ニコニコ動画は研究的にもとても面白い存在になっています. ウェブページでは,ニコニコ動画研究の意義や面白さの一端をご紹介できればと思います. ニコニコ動画研究とは? ニコニコ動画研究のサーベイ このページの作者について ニコニコ動画研究とは? 「ニコニコ動画の研究をしている」というと,どうしてもネタっぽくなってしまうのです

    【ニコ動研究】ニコニコ動画研究を調べてみた
  • TinySegmenterの学習ツールを作ってみた

    TinySegmenterは工藤さん作のJavaScriptだけで書かれたコンパクトな分かち書きソフトウェアです. わずか20kバイト程度のサイズしかなく,お手軽に使える分かち書きソフトウェアですが, 当たり前のことながら学習データに使った新聞記事以外の文章の精度はイマイチ. 改善しようにも学習用のプログラムが公開されていないのでモデルの修正が大変です. ないなら作ってしまいましょう! ダウンロード ソースはgithubで公開しています.cloneするなりzipファイルを落としてくるなりしてください. TinySegmenterMaker 学習方法 スペースで分かち書きしたコーパスをあらかじめ準備しておきます. コーパスから分かち書きの情報と素性を取り出します.

    suikyo
    suikyo 2013/02/21
  • しましま/IBIS2012 - 機械学習の「朱鷺の杜Wiki」

    第15回 情報論的学習理論ワークショップ (IBIS2012)† このページはしましまが IBIS2012 に参加してとったメモです.私の主観や勘違いが含まれていたり,私が全く分かってなかったりしていますので,その点を注意してご覧ください.誤りがあれば,指摘してください. 統計的学習理論チュートリアル:基礎から応用まで† 鈴木 大慈 (東京大学) 資料: http://www.simplex.t.u-tokyo.ac.jp/~s-taiji/ibisml2012/IBIS2012.pdf 理論は必要なのか? 理論を知らなくても実装できる → 理論家は役に立たない理論をこねくり回している? 応用は基礎から発展してきた過去 理論は基技術を開発して,応用手法の閉塞を打破する 成功例:SVM←VC次元,AdaBoost←弱学習器による学習可能性,Dirichlet過程←Fergusonの理論,そ

    suikyo
    suikyo 2012/11/14
  • あずにゃんと澪の区別もつくGoogle画像検索の知能アップ度:海外速報部ログ:オルタナティブ・ブログ

    それほど大きなニュースじゃないんですが、個人的に楽しめた今日の記事は「Google画像検索がより賢く 「Knowledge Graph」にも対応」という話。 検索キーワードの代わりに画像ファイルをドラッグ&ドロップすると、その画像に関連する情報が検索結果として表示されるというもの(今のところ英語版のGoogle Search by Imageのみ)なんですが、いろいろ遊べます。 最初は、Google画像検索で「」とか適当に検索して出した結果の画像をドラッグ&ドロップして遊んでいた(ペルシャの画像をドロップするとちゃんと「persian cat」と出てくる)んですが、それだとファイル名とかタグとかから判断してるのかも、と思ったので、自分で撮影したファイルで試してみることにしました。 まず、画像検索でけいおんのあずにゃんと澪ちゃんの画像を表示してそれぞれをスマートフォンで撮影して自分にメー

    あずにゃんと澪の区別もつくGoogle画像検索の知能アップ度:海外速報部ログ:オルタナティブ・ブログ
  • BLOG::broomie.net: 各種分類器の分類精度を示した絵がおもしろい

    今日会社で多次元のデータを2次元にクールでベストプラクティスな感じでプロットするにはどうしたらいいんだろうね、やっぱ多次元尺度構成法じゃない?的な会話をしていたのだけれども、2次元にデータを落とし込むと人間にもわかるデータになって当におもしろいですよね。今日はその一例というか、いくつかの分類器の分類精度を2次元にプロットした結果を示した実験結果を解説したページを紹介します。おおーこうゆうのみたかったんだよなー!と個人的にはかなりエキサイティングな感じでした。 要約というか意訳になってしまうのですが、ページに以下のように説明されています。(細かいところは訳してません) http://home.comcast.net/~tom.fawcett/public_html/ML-gallery/pages/index.html 分類タスクの機械学習の研究では定量的な評価が重要です(精度とかACUと

    suikyo
    suikyo 2012/01/11
  • 線形分類器のオンライン学習 - nokunoの日記

    Googleの工藤さんが客員准教授をされているという東大の講義「創造情報学連携講義VII」、講義資料が公開されていないのは残念ですが、課題が面白かったので解いてみました。創造情報学連携講座今回は、6/17の栗原さんの課題1を解きましたので紹介します。よい復習になりました。 問題入力データの特徴ベクトルに対し、重みベクトルを使ってラベルを以下の式で予測する。正解ラベルが与えられたとき、以下のように重みベクトルを更新する。このとき、そのデータに対する誤差を以下のように定義する。誤差が更新前より小さくなることを証明せよ。 回答を証明する。実際のオンライン学習では1つのデータに対する損失を最小にしても仕方がないので、学習率を小さく設定して過学習しにくくするのが一般的です。また、実はラベルlは二値でない実数などでも同様に成り立ちますが、実数の場合(=線形回帰)はバッチ学習の最適解が解析的に解けるので

    suikyo
    suikyo 2012/01/11
  • Rと集団学習

    集団学習(ensemble learning)は、決して精度が高くない複数の結果を統合・組み合わせることで精度を向上させる機械学習方法である。複数の結果の統合・組み合わせの方法としては、分類問題では多数決、数値の予測(回帰)問題では平均が多く用いられている。 集団学習では、異なる重み、あるいは異なるサンプルから単純なモデルを複数作成し、これらを何らかの方法で組み合わせることで、精度と汎化力を両立するモデルを構築する。 稿では、集団学習方法による、回帰・分類のアルゴリズムバギング(bagging)、ブースティング(boosting)、ランダム森(random forest)の基概念およびこれらのRのパッケージと関数を紹介する。 機械学習の問題では、学習によって回帰・分類を行うシステムを学習機械と呼ぶ。文献によっては学習機械を仮説(hypothesis)、分類器・識別器(classi

    suikyo
    suikyo 2011/06/10
  • TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ

    TokyoNLP#5に参加して「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」というタイトルで発表しました.発表資料 (検閲後) をuploadしました. なお,2種類のAveraged Perceptronというものがあるというような発表をしてしまいましたが,実は両方とも実質同じアルゴリズムでした.片方はVoted Perceptronの近似 [Carvalho+ 06] という文脈.もう一方は構造学習を行うStructured Perceptron [Collins 02]の文脈で提案されています.その部分を修正しました.@uchumikさんのコメントで気が付きました.どうもありがとうございます. TokyoNLP#5 パーセプトロンで楽しい仲間がぽぽぽぽ〜ん View more presentations from sleepy_yoshi 音声付きで用意したネタ.どうやら徹夜明けの妙な

    TokyoNLP#5で「パーセプトロンで楽しい仲間がぽぽぽぽ〜ん」を発表しました - シリコンの谷のゾンビ
    suikyo
    suikyo 2011/04/24
  • トピックモデル入門編 - yasuhisa's blog

    自然言語処理特論も最後の話題、トピックモデルに先週から入ってます。今日の資料はこの辺の最初の付近。 Topicに基づく統計的言語モデルの最善線 前々回までの内容は最尤推定に基づいていたものがほとんどで、(ベイズ的な流れではない)スムージングの方法の説明などがあっていました。 Good-Turing 線形補完 Kneser-Ney smoothing などなど。あとは最大エントロピー法などですね。 なんでトピックモデルなのか?で、こういう方法があるにも関わらずなんでトピックモデルというのがわざわざ出てくるか。それは、単語の出現確率というのは変動しまくる!という現実があるからのようです。例えば、最尤推定に基づくN-gramでは、文章に関わらず真の出現確率というのがあると想定している。しかし、Unigramを考えているとして、「東証」という単語が出てくる確率は、社説、経済、スポーツ、芸能などでは

    トピックモデル入門編 - yasuhisa's blog
    suikyo
    suikyo 2011/04/19
  • MLFi ‐ 金融商品を書くための関数型言語

    前に調べて気になっていた言語についてメモしておきます。 その言語はMLFi(Modeling Language for Finance)。デリバティブなど複雑な金融商品を記述するためのプログラミング言語です。開発元のLexiFi社のページによると,Camlを拡張した関数型言語だそうです。 LexiFi: Structured Product Pricing and Processing 日語の解説は以下の文書が分かりやすいです。 関数型言語による金融アプリケーション(PDFファイル) この文書によるとMLFiは金融商品を簡潔に書くために作られたものらしいです。デリバティブのような複雑な金融商品は仕様書(目論見書?)も煩雑になりがちだけど,関数型言語を使えば幾つかの部品の組み合わせで表現できますよー,ということをMLFiの開発者たちは考えて実践したそうです。 実際,15個のコンビネータを定

  • Cybozu Inside Out: コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか?(機械学習/パーセプトロン)

    コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか?(機械学習/パーセプトロン) サイボウズ・ラボの中谷です。 以前は nakatani @ cybozu labs でブログを書いていましたが、この "Cybozu Development Inside Out" で書かせていただくことになりました。 よろしくお願いします。 そして初回の記事は、なんと前回の続きです(ごめんなさい)。 前回記事「Perceptron を手で計算して理解してみる」では、オンライン機械学習の手法の一つ、パーセプトロンを紙と鉛筆で計算してみましたので、今回はそれを実装してみましょうというお話です。 ソースは github においています。 http://github.com/shuyo/iir/tree/master Perceptron 実装は簡単。手で計算した後なら、空で実装できてしまい

    Cybozu Inside Out: コンピュータはオー・ヘンリーとエドガー・アラン・ポーの文章を見分けられるか?(機械学習/パーセプトロン)
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • Kernel Averaged Perceptron の話 - mtbrの日記

    要約すると、 カーネルパーセプトロンを使うくらいならサポートベクターマシンを使ったほうがいい という話。 以下、パーセプトロンとかカーネルとか基的なところばかり書きます。 <パーセプトロン> 正負ラベルを予測する二値分類を行うパーセプトロンの場合、以下のアルゴリズムで訓練する。 ・以下を、重みが収束するまで繰り返す 1. サンプル(正解ラベル付き)をランダムにとってくる 2. 現在の重みとサンプルの内積をとって、その符号(つまり予測されたラベル)が正しければ 1. へ 3. 重み = 重み - あるべき符号 * サンプル 推論(符号が未知のサンプルに対するラベルの予測)のときも、2. と同様に重みとの内積の結果の符号をとって返す。 パーセプトロンはオンラインで使える。 つまり、サンプルが次々と追加される場合でも、順序がランダム(変な偏りがない)と仮定できるなら、上記のアルゴリズムをそのま

    Kernel Averaged Perceptron の話 - mtbrの日記
    suikyo
    suikyo 2010/07/27