並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 351件

新着順 人気順

識別モデルの検索結果1 - 40 件 / 351件

  • 人工知能は Deep Learning によって成されるのか? - Sideswipe

    最近は人工知能分野の話題に事欠かないので、IT系に詳しくない人でも、Deep Learning がどうとか、人工知能がどうとかという話題を耳にすることが多いと思います。 猫も杓子も Deep Learning な世の中ですが、そもそも人工知能とか Deep Learning ってなんなんだっけ? という疑問に答えられる人は多くないはずです。 今回は、広く浅く、人工知能と Deep Learning について書きます (この記事をご覧になればわかるように、人工知能 = Deep Learning では決して無いのですが、両者はよく並んで紹介されるので、ここでも同列に書いています)。 最初に結論 Deep Learning は(真の)人工知能ではない。なんでもかんでも人工知能って呼ばない。 「Deep Learning」、「人工知能」ともにバズワード*1になりつつあるので気をつけよう。 コンピ

      人工知能は Deep Learning によって成されるのか? - Sideswipe
    • 統計的機械学習入門

      統計的機械学習入門(under construction) 機械学習の歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

      • 機械学習を初めて勉強する人におすすめの入門書 - old school magic

        概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単な本から始めて、少しずつ難しい本に挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行本(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :

          機械学習を初めて勉強する人におすすめの入門書 - old school magic
        • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

          5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

            2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
          • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

            今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

              社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
            • 結局、機械学習に必要な数学ってなに?

              前置き# 記事がはてぶ炎上して恥ずかしい思いをしたので、結構書き直しました。 この記事よりも良質な記事を参考記事に列挙したので、このページをブックマーク集だとして、他のページを参照していただければと思います。 はじめに# 機械学習を勉強するにあたって、 ベースとなる数学を勉強したいというモチベーションが高まってきた。なぜか?それは、今まで数学的な知識なしに勉強を進めていたのたけれども、論文が読めなかったり、少し数式で込み入ってくると、とたんにわけがわからなくなったからだ。 しかし、一番のモチベーションは、やっぱり機械学習を勉強するものとしての登竜門、PRML(パターン認識と機械学習)を読みたいというものがある。 参考記事# そこで、機械学習のために必要な数学を調べてみたのだが・・・どのサイトをみてもこれはというものがみつからないのだ。 2017年現在で、有益な記事をできるかぎり集めてみた。

                結局、機械学習に必要な数学ってなに?
              • Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog

                この教科書は、はてなサマーインターンの講義資料として作成されたものです: https://github.com/hatena/Hatena-Textbook 機械学習編1(基礎編)では、最も初歩的な分類器である単純パーセプトロンを題材に、機械学習の基本について勉強しました。機械学習編2(実用編)では、実問題に機械学習を適用する上でのコツや、各種の機械学習アルゴリズムの使い分け、高次元データへの対処法、といったトピックについて解説していきます。 実問題に機械学習を適用する タスクを定義する データを特徴ベクトルに変換する 評価方法を決める 正解データの正例と負例は均等に ベースラインとなる手法を実装する 実データに向き合うときの心構え 機械学習のワークフロー 1. 前処理 データセット作成 サンプリング 特徴抽出 欠損値・欠測値への対応 値のスケーリング 特徴選択 次元削減 2. 学習 モデ

                  Web開発におけるコンピュータサイエンス - 機械学習編2 - Hatena Developer Blog
                • 坂本龍一、タダになった音楽は再び「ライブ」へ回帰する - すごもり -

                  フロリダ州タンパ — サービスを迅速に変更および更新するスペースXの能力は、再販業者にとって扱いにくいものだと、地球低軌道(LEO)ブロードバンドコンステレーションの幹部は9月13日に語った。 スターリンクのコマーシャルセールス担当バイスプレジデント、ジョナサン・ホッフェラー氏は9月13日、「われわれは非常に機敏であるため、これは困難だった。そして、(これが)当社の再販業者にどのような影響を与えるかについて、もっと賢くならなければならない」と語った。 同氏は、スペースXが金曜日にスターリンク計画を追加し、月曜日にそれを採用したいと考えるのは珍しいことではない、と述べた。 同氏はパリで開催されたワールド・サテライト・ビジネス・ウィークのパネルディスカッションで、「それは我々のパートナーにも影響を与えるし、我々はその意味でより良いパートナーになる方法を学んでいるところだ」と語った。 しかし、S

                  • これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei

                    最近では企業における機械学習の認知度も高まっていてエンジニアの求人募集でも「望ましいスキル:機械学習」というのをよく見かける。特にweb系の企業だと当たり前のように機械学習を活用した魅力的なサービスが生み出されているようだ。 そんなわけで先日書いた機械学習の入門記事もそれなりに好評で末尾の教科書リストも結構参考にしていただいた様子。ということで、これから機械学習をはじめる人のためにオススメの教科書を10冊ほどピックアップしてみた。 幸いにして機械学習の分野には良書が多い。5年前はナイーブベイズすら知らなかった私も、これらの教科書のおかげでなんとか機械学習を使えるようになりました!(個人の体験談です。効果には個人差があります) 参考: 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei 最初に既存の機械学習の教科書まとめを挙げておくの

                      これからはじめる人のための機械学習の教科書まとめ - EchizenBlog-Zwei
                    • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

                      気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

                        実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
                      • 東京大学 杉山・本多研究室

                        東京大学 杉山・本多研究室:機械学習と統計的データ解析 機械学習の基礎理論の構築と実用的なアルゴリズムの開発,及び,実問題への応用研究を行っています [ English | Japanese ] 研究概要 教科書 機械学習のための確率と統計 イラストで学ぶ機械学習:最小二乗法による識別モデル学習を中心に 統計的機械学習 統計的学習の基礎:データマイニング・推論・予測 パターン認識と機械学習 強くなるロボティック・ゲームプレイヤーの作り方~実践で学ぶ強化学習 学習の種類 教師付き学習 教師なし学習 半教師付き学習 強化学習 機械学習の理論とアルゴリズム モデル選択 不偏モデル選択規準 正則化モデル選択規準 能動学習 単一のモデルに対する能動学習 複数のモデルに対する能動学習 追加学習/オンライン学習 次元削減 教師付き次元削減 半教師付き次元削減 教師無し次元削減 類似度データからの学習/カ

                          東京大学 杉山・本多研究室
                        • TensorFlowで顔検出器を自作する - すぎゃーんメモ

                          19日に行われた Kyoto.なんか #3 で発表・デモをさせていただいた内容まとめです。 はじめに: 検出器の重要性 アイドル顔識別 をずっとやっている中で、顔の識別・分類(Classification)はCNNを使って出来ているけれど まだ上手く出来ていない別のタスクがあって。 それが画像内からの顔領域の検出 (Detection, Localization)。 「画像内に写っている人物が誰であるか」を識別するためには、まずはその画像に写っている「顔」を検出する必要がある。 その検出された顔それぞれについて分類器にかけて「この顔は○○さん」「この顔は××さん」と分類していくことになるわけで。 分類器に与える入力画像を切り抜いて抽出するのにもまず顔領域を検出する必要があるし、その分類器を学習させるためのデータセットも、様々な画像から顔領域を検出して切り抜いてそれぞれに対してラベル付けする

                            TensorFlowで顔検出器を自作する - すぎゃーんメモ
                          • 統計的機械学習入門 | 中川研究室

                            導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b

                            • 最近またLinux用の日本語IMEを作っている - tokuhirom's blog

                              本件は mozc の ut がどうこうとかは関係なくて、ふと linux desktop を使おうと昨年末に思いまして、昨年末からちまちまやってます https://github.com/tokuhirom/akaza かな漢字変換って作るの難しいのかなぁ、と思ったので作ってみている。これはまさに Just for Fun でやっている。 わりと普通に自分で常用してる分には困らないかな、というところまできている。 以下は、思ってることの垂れ流しという感じで、まとまってないですが。 「日本語入力を支える技術」という本が 2018年に出ていて、この本の内容を読めば、だいたいエンジン部分は実装できる。Amazon のレビューではこの本よんでも実装できないって書いてあるけど、変換エンジン自体は実装できます。 UI が辛い。けど。 エンジンは、ビタビアルゴリズムで最小コスト法を実装する、とかであれば

                              • DO++: 機械学習による自然言語処理チュートリアル

                                自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

                                  DO++: 機械学習による自然言語処理チュートリアル
                                • TensorFlowで顔識別モデルに最適化した入力画像を生成する - すぎゃーんメモ

                                  動機 elix-tech.github.io の記事を読んで、「可視化」の項が面白いなーと思って。 引用されている図によると、人間の目にはまったく出力クラスとは関係なさそうに見える画像でもCNNによる分類器は騙されてしまう、ということのようだ。 なるほど分類モデルの方を固定しておいて入力を変数として最適化していけば任意の出力に最適な入力を得ることができるのか、と。 自分でもやってみることにした。 分類モデル TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 - すぎゃーんメモ の記事で使ったモデルとデータセットで、ここではCross Validation用にデータを分けずに7,200件すべてを学習に使い20,000 step進めたものを用意した。 このモデルは学習したアイドルたちの顔画像に対してはかなりハッキリと分類できるようになっていて、試しに

                                    TensorFlowで顔識別モデルに最適化した入力画像を生成する - すぎゃーんメモ
                                  • 機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei

                                    最近では機械学習の認知度も上がってきていて専門家でなくてもナイーブベイズやSVMなどの名前を知っている人も増えてきたように思う。 そんなわけでちょっと機械学習をはじめてみようかな、と思っている人も多いのではないだろうか。とはいえ「数式よくわからない」「確率嫌い」といった理由で尻込みしているケースも多いのでは。 そこで予備知識ゼロでもわかるような機械学習の入門記事を書いてみたよ。 機械学習を「作りたい」のか「使いたいのか」 まず最初に確認したいのがこれ。使いたいだけならまずはSVMを使ってみれば良い。世の中にはlibsvmやsvmlightという良いツールがあるのでそれを使おう。以下の記事は機械学習を「作りたい」「仕組みを知りたい」人向けの内容になっている。 「最も簡単な機械学習はナイーブベイズ」という幻想 機械学習といえばナイーブベイズという話がよくある。ナイーブ(単純)という名前からいか

                                      機械学習超入門 〜そろそろナイーブベイズについてひとこと言っておくか〜 - EchizenBlog-Zwei
                                    • ドメイン駆動設計のエンティティとクリーンアーキテクチャのエンティティ

                                      概要 ドメイン駆動設計の有名な用語にエンティティというものがあります。 ほとんどドメイン駆動設計の代名詞のひとつと言っても過言でないほどの有名さを誇るこちらの用語ですが、なんとクリーンアーキテクチャにもまったく同じエンティティという用語が出てきます。 このエンティティという用語は名前こそ同じではありますが、実は完全に同じものを指しているわけではありません。 とはいえまったく違うものである、というわけでもありません。 要するにややこしい。 この記事はこのややこしい用語について、ドメイン駆動設計とクリーンアーキテクチャのそれぞれのエンティティが何を指していて、それがどのように異なっているのかについてを解説します。 それぞれのエンティティ そもそもエンティティとは何でしょうか。 英和辞典を引くとエンティティとは「存在[実在]物」といった意味が出てきます。 これはかなり抽象的な意味です。 つまり、

                                        ドメイン駆動設計のエンティティとクリーンアーキテクチャのエンティティ
                                      • ゼロから始めるDeepLearning_その1_ニューラルネットとは - 分からんこと多すぎ

                                        対象とする人 ディープラーニングすごい! ←聞き飽きた チュートリアルあるよ! ←ふわっとしすぎて具体的なところが分からん こういう論文あるよ! ←読めるわけないだろ そういう人向け。(たぶん学部四年程度向け) ニューラルネット初学者が、書ききるまで怪しいところ満載でも突っ走ります。 ニューラルネット(この記事) →(AutoEncoder) →(DenoisingAutoEncoder) →ホップフィールドネットワーク →ボルツマンマシン →Restrictedボルツマンマシン →(Gaussian Binary - Restricted Boltzmann Machines) →(DeepBeliefNetwork) →(DeepNeuralNetworks) →畳み込みニューラルネット(後日) までやる。 太線以外は読み飛ばしてOK 本文中では怖い式は使わない。(Appendixに書

                                        • まったく最小二乗法は最高だぜ!な「イラストで学ぶ機械学習」を読み終えた。 - EchizenBlog-Zwei

                                          「イラストで学ぶ機械学習」という機械学習の本を読んだので感想を書いておく。 なお本書にはMatlabのコードが書いてある場合があるけど、Matlabに詳しくないので読み飛ばした。 対象となる読者 あくまで私の主観だけど、以下のような人が読むと良さそうな感じ。 ・機械学習の基礎は知っている(パーセプトロンくらいは実装できる) ・機械学習の論文に出てくる用語が理解できる ・確率の基礎は知っている(条件付き確率とか、周辺確率とか) ・最適化の基礎は知っている(ラグランジュの未定乗数法がわかる) ・行列の演算がわかる(これはわからなくても適当に読み飛ばせば大丈夫かも) ・機械学習で知っておいたほうが良いことを手早く把握したい ・まったく識別関数は最高だぜ!と思っている ・損失関数について理解を深めたい ・正則化について理解を深めたい ・次元削減について理解を深めたい ・転移学習について理解を深めた

                                            まったく最小二乗法は最高だぜ!な「イラストで学ぶ機械学習」を読み終えた。 - EchizenBlog-Zwei
                                          • PRML副読本「パターン認識と機械学習の学習」を出版します | TAKESAKO @ Yet another Cybozu Labs

                                            2010年~2011年に社内で開催した機械学習勉強会の『パターン認識と機械学習』読書会で、光成さんが素晴らしいアンチョコを作ってくれました。PDFファイルは既にgithub 上で公開されていますが、このまま埋もれさせておくのはもったいないということで、暗黒通信団の同人誌として正式に出版されることが決まりました。 ※ 表紙のデザインは今後変更される可能性があります。 目次は以下の通りです。 第 1 章  「序論」のための確率用語 1.1      確率変数は変数なのか..............................  7 1.1.1   確率空間(Ω, F, P).............................  7 1.1.2   σ 加法族.....................................  8 1.1.3   確率変数X..........

                                            • PRML合宿まとめサイト

                                              ■上巻 第1章: 序論 序論ではまずパターン認識の最も簡単な例として多項式曲線フィッティングを取り上げ、パターン認識・機械学習の基本的な枠組みを紹介する。そしてベイズの定理や統計量などの確率論の基礎を導入し、確率論の観点から再び曲線フィッティングを扱う。不確実性はパターン認識の分野における鍵となる概念であり、確率論はこれを定量的に取り扱うための一貫した手法を与えるため、この分野における基礎の中心を担っている点で重要である。 また、回帰・識別の実際の取り扱いに際して必要となる決定理論や、パターン認識・機械学習の理論において役立つ情報理論の導入についても行う。 発表資料はこちら(ppt)とこちら(ppt)。前半では多項式曲線フィッティングの例およびベイズ的確率を、後半では決定理論および情報理論を取り扱っている。 第2章: 確率分布 第2章では二項分布や多項分布、ガウス分布といった各種の確率分布

                                              • TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 - すぎゃーんメモ

                                                以前から書いているDeep Learningによるアイドル顔識別の話の続き。 コツコツと顔画像収集とラベル付けを続けて、そこそこにデータが集まってきたので ここらでちゃんと性能評価をしてみよう、と。 データセットの作成 今回は、現時点で重複なく180件以上の顔画像が集まっている40人のアイドルを分類対象とした。 対象アイドル一覧 これらのアイドルに分類のラベルindexを振り(推してる順とかじゃなくてランダムにね)、それぞれから無作為に抽出した180件の顔画像をそれぞれラベルとセットでレコードを作り、シャッフルして30件ずつ6つのデータセットに分けて保存。 data-00.tfrecords data-01.tfrecords data-02.tfrecords data-03.tfrecords data-04.tfrecords data-05.tfrecords レコードは、以前の記

                                                  TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 - すぎゃーんメモ
                                                • 基礎から深層学習まで。おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ - EchizenBlog-Zwei

                                                  おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ。 おそらく、というのは多少説明が足りない箇所がある本なので、そのへんが受け入れられない人もいるかなあ、と思ったので。 以下、読んだ感想を書いておくので購入を検討している人は参考にどうぞ。 本書の扱う範囲 "データマイニングの基礎"と"はじめてのパターン認識"の内容を合わせたような感じ。決定木やルール学習などの古典的な手法からはじまって識別関数・識別モデル・生成モデルと一通り扱っている。またグラフィカルモデルや系列ラベリングなども少々。さらに多腕バンディット問題、POMDP、深層学習など。新しめの話題も扱っている。 本書の特色 1章あたり10-20ページと少なく、有名どころの手法に絞って解説してあるので最初から通して読むのが苦にならない。"はじめてのパターン認識"も良い入門書だけど、あれを通して読むのは重い、というひとはこち

                                                    基礎から深層学習まで。おそらく初心者向けな「フリーソフトではじめる機械学習入門」を読んだ - EchizenBlog-Zwei
                                                  • より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog

                                                    ABEJAでリサーチャーをしている白川です。 皆さん、アノテーションしていますか? 私はしています。アノテーション、自分でやるのは大変ですよね。 AIというとモデルの学習に注目されがちですが、もしかしたら、アノテーションはAI開発においてモデル開発以上に重要で注意の必要なプロセスかもしれません。今回はなぜアノテーションがそれほど重要なのか、良いアノテーションとはどのようなアノテーションなのかについて、機械学習的にアプローチしてみたいと思います。 アノテーションを機械学習で解析するの、楽しいですよ。 なお、本記事に関連して、2018年7月1日に開催されるccse2018というカンファレンスでもお話させていただく予定です。記事内では触れられなかった内容についてもお話させていただくかもしれないので、ご興味ある方はチェックしてみてください。 この記事を読むとわかること アノテーションはAIの開発・

                                                      より良い機械学習のためのアノテーションの機械学習 - ABEJA Tech Blog
                                                    • 機械学習に本気で取り組むためにやった数学周り 後半戦結果 - きのこる庭

                                                      前回の「機械学習に本気で取り組むためにやった数学周り 前半戦結果」の記事から早くも半年近くが経過しました(覚えてくれている人いるだろうか…)。本当に時間が過ぎるのは早い。とりあえず2017年前半の締め括りの季節として良い時期になってきたので少々早いですが後半戦結果を書きました。後半戦では 色々な軌道修正・計画の調整を行ったため 前半戦に記載している流れになっていない部分がありますがご了承下さい。 ● 2017年1月 – 6月 後半戦結果 2017年1月後半 – 線形代数復習 昨年8月にやっていたのだけれど、幾何的な理解はできていたが理論的な理解が浅いままで割と苦労したので改めて時間を設けて固めることにした。 【勉強時間: 35時間】 2月 – 最適化数学 → これなら分かる最適化数学―基礎原理から計算手法まで ラグランジュの未定乗数法とか最適化問題の考え方の基本はこの本で習得した。未定乗数

                                                        機械学習に本気で取り組むためにやった数学周り 後半戦結果 - きのこる庭
                                                      • CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei

                                                        機械学習の3大有名手法といえばSVM、CRF、LDAではないだろうか(と勝手に思っている)。 SVM(Support Vector Machine)については以前記事を書いたので今回はCRF(Conditional Random Fields)について書いてみたい。 機械学習超入門IV 〜SVM(サポートベクターマシン)だって30分で作れちゃう☆〜 - EchizenBlog-Zwei といっても今回はさくっと読んでもらうのを目的にしているので手法の具体的な解説は行わない。具体的な部分は@uchumik氏の資料がとても詳しい。 uchiumi log: 間違ってるかもしれないCRFの説明 また、実装方法については高村本(言語処理のための機械学習入門)がとても詳しい。 さて、具体的な解説をしないなら何をするの?ということだが、今回はそもそもCRFとは何かという話をする。過去の経験上この、そも

                                                          CRFがよくわからなくてお腹が痛くなってしまう人のための30分でわかるCRFのはなし - EchizenBlog-Zwei
                                                        • VAEとGANを活用したファッションアイテム検索システム - ZOZO TECH BLOG

                                                          データサイエンティストの中村です。今回はイメージファーストなファッションアイテム検索システムを作ってみたのでそちらの紹介をしたいと思います。 本記事で紹介する技術はIBIS2016でも報告しています。 概要 ファッションアイテムを探すとき、見た目の印象はとても大事な要素です。ファッションは感覚的なものなので、自分が欲しい服について言葉で説明することは難しいですが、そのアイテムの良し悪しは画像を見ただけで判断できるからです。 今回開発した検索システムは見た目の印象を大事にしたいので、画像をクエリとします。ただし、ただの画像検索では面白くないので、色や形状などの属性情報を付加した状態で検索を実行できるようにしました。 例えば、「シルエットは良いんだけど、これの赤いやつが欲しい」のような感覚的な注文を、以下のGIFのように画像に属性を付加する形で拾っています。 よくある検索システムではカテゴリに

                                                            VAEとGANを活用したファッションアイテム検索システム - ZOZO TECH BLOG
                                                          • 統計的機械学習(Hiroshi Nakagawa)

                                                            統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

                                                            • テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!

                                                              一夜目はパターン認識と機械学習の概要を学びました。今夜は、識別部で用いられる機械学習の基本的な線形識別器である「パーセプトロン」を具体的に学びたいと思います。「線形識別器?パーセプトロン?何それ?」字面は厳しいですが、手を動かしてみると意外と簡単に理解できます。今夜からは数式をバリバリ使っていきますし、手を動かしていただきます。「必ず」手元にペンと紙を用意してください。そうは言ってもパーセプトロンが一体何なのか、機械学習の中でどのような位置づけなのかがわからないと混乱するかもしれません。パーセプトロンの説明へ入る前に、機械学習の3つのアプローチをご紹介します。 ●機械学習の3つのアプローチ - 識別関数、識別モデル、生成モデル 機械学習は大きく分けて識別関数、識別モデル、生成モデルという3つのアプローチがあります。 識別関数 := 入力データを見て、特定のクラスに属するよう識別(代表的な手

                                                                テキストマイニングのための機械学習超入門 二夜目 パーセプトロン - あんちべ!
                                                              • パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ

                                                                (※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) さて、こんな記事をクリスマス・イヴのプレゼントにするのはアレなんですが(笑)、教師あり学習&分類器系では一旦これでシリーズを〆る予定です。 トリを飾るのはランダムフォレスト。アンサンブル学習の代表選手ですね。「ランダムフォレスト最強」とか言っちゃう人が多いらしいんですが*1、そういう人にはぜひ今回(と次回予定の5回分まとめ)の記事を読んでもらいたいなぁと思います。 今回の参考文献もピンクの薄い本です。pp.193-197に決定木、バギング、アダブーストの後にランダムフォレストの説明があります。 はじめてのパターン認識 作者: 平井有三出版社/メーカー: 森北出版発売日: 2012/07/31メディア: 単行本(ソフトカバー)購入: 1人 クリック: 7回この商品を含むブログ (4件) を見る 他だと、例

                                                                  パッケージユーザーのための機械学習(5):ランダムフォレスト - 渋谷駅前で働くデータサイエンティストのブログ
                                                                • Pythonではじめる教師なし学習

                                                                  教師なし学習はラベル付けされていないデータから学習する機械学習の一種です。現在の機械学習では大量のラベル付きのデータを用いる教師あり学習が主流ですが、ラベルを付けるには膨大なコストがかかります。現実世界に機械学習を適用していくためには、ラベル付けを必要としない教師なし学習の重要性が増してくると考えられます。本書は実践的な視点から、データにある隠れたパターンを特定し、異常検出や特徴量抽出・選択を行う方法を紹介します。ラベルなしデータを有効に利用することで、機械学習の可能性を各段に広げる教師なし学習の本質に迫ります。さらに、変分オートエンコーダ(VAE)や敵対的生成ネットワーク(GAN)、制限付きボルツマンマシン(RBM)などの生成モデルも紹介します。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書

                                                                    Pythonではじめる教師なし学習
                                                                  • 【PRML同人誌】パターン認識と機械学習の学習-ベイズ理論に挫折しないための数学(光成 滋生 著)

                                                                    第1章 「序論」のための確率用語 第2章 「確率分布」のための数学 第3章 「線形回帰モデル」のための数学 第4章 「線形識別モデル」のための数学 第9章 「混合モデルと EM」の数式の補足 第10章「近似推論法」の数式の補足 第11章「サンプリング法」のための物理学 ■まえがき サイボウズ・ラボでは「言語処理に必要そうな機械学習の基礎知識を身につける」という目標のもと,2011年の2月から11月にかけて当時シュプリンガー・ジャパン(現在は丸善)から出版されていた「パターン認識と機械学習」(PRML)を輪読する社内読書会をやっていました. 「あの本」を10ヶ月足らずで一通り(すべての章ではありませんが)読みきったと言えば,そのスパルタな様子が想像つくのではないでしょうか.しかも,専門の学生ではない社会人が仕事の合間に! 当然スムーズに読み進めるはずもなく,いろんなところでつまずくことになり

                                                                    • Recurrent Neural Networkとは何か、他のニューラルネットワークと何が違うのか

                                                                      筆者が所属するリクルートテクノロジーズでは機械学習をはじめとしたデータ解析を用いた社内向けソリューションをAPIで提供するプロジェクト「A3RT(Analytics And Artificial Intelligence API via Recruit Technologies)」が2016年に発足し、自然言語処理や画像解析、レコメンドなどの分野において研究開発と実践への導入が盛んに行われています。 A3RTにおいて、筆者が取り組んでいる課題の1つとして「校正」があります。 リクルートはもともと紙を媒体とする情報誌を発行している会社で、ネット化が進んだ現在でも大量の求人票や記事を日々作成しています。作成される原稿はカスタマーとクライアントをつなぐ重要な媒体であり、そこに間違いがあると大きな機会損失となります。そのため、現状では人手でその原稿を校正するため膨大なコストと時間がかかっています。

                                                                        Recurrent Neural Networkとは何か、他のニューラルネットワークと何が違うのか
                                                                      • 自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei

                                                                        @tkngさんの力作「日本語入力を支える技術」が2/8に発売される。既に秋葉原のヨドバシ有隣堂や池袋のジュンク堂本店では早売りされている様子。ってことで早速購入してきた。 本書が扱うテーマはGoogleIMEのような「日本語入力」のシステム。これだけだとさして興味ないや、って人も多いかもしれない。ところがこの日本語入力というのは技術的には形態素解析に非常に近い。自然言語処理やテキストマイニングに関わる方にとっては形態素解析は最も基本的かつ重要な技術。その仕組みを知っておくのは非常に重要だと思う。 また日本語入力(形態素解析)は技術的には機械学習、グラフの最短経路問題、簡潔データ構造など多くの分野が関わっているので「日本語入力」を理解することでこれらの多くの基礎技術の具体例を体感できるというメリットがある。 そんな日本語入力をまとめて勉強できるのが本書「日本語入力を支える技術」である!ばーん

                                                                          自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei
                                                                        • ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog

                                                                          こんにちは、Research Internの荒尾(@karolis_ml)です。 日進月歩の勢いで研究が進んでいる深層学習ですが、教師あり学習でもっとも大事なデータのアノテーション、応用分野ではまだまだ大変ですよね。例えば、犬の写真から犬種を判断する分類器を作ろうとして教師データが必要になったとき、あなたは以下の画像にどんなラベルをつけるでしょうか? 出典: Pixabay 犬好きの方は正しくアラスカンマラミュート、そうではない方は似た有名犬種であるシベリアンハスキーと答えられたことでしょう。マラミュートの茶色い目(かわいい)や小さめの尖った耳(かわいい)を見分けて正しくラベル付けをするのは、決して簡単ではありません。 このようなアノテーションの分野に関して当ブログでは以前、Bounding BoxやSegmentationの効率化についての研究サーベイを行いましたが、この犬種分類のような

                                                                            ノイズのある教師データを用いた機械学習に関する研究サーベイ - ABEJA Tech Blog
                                                                          • 機械学習を学ぶ上で抑えておきたい数学 - HELLO CYBERNETICS

                                                                            機械学習を勉強する際にぶつかる最大の壁は数学です。 機械学習に必要な数学をリストアップし、いつでも参照できるようにまとめておきたいと思います。 数学の必要性と手順 数学は世界共通の言語 機械学習をやる上で厳密な数学は必要なし レベル別、必要な数学 機械学習の処理が具体的にどんな計算をしているのかが分かる 機械学習アルゴリズムの導出は追えなくとも、その手法の狙いが分かる 機械学習のアルゴリズムの導出を追い、アルゴリズムの理屈を理解する 行列の計算公式をまとめてあるpdf 数学の本に関して 数学の必要性と手順 数学は世界共通の言語 冒頭で述べた通り、機械学習で何をやっているのか分からない!となるのは大抵数学がわからないからです。もちろん数学が分かっていても、機械学習でわからないことは出てきますが、ちょっと数学が分かってさえいれば殆どの手法が見通しよく理解できます。それは非常に単純な理由で、数学

                                                                              機械学習を学ぶ上で抑えておきたい数学 - HELLO CYBERNETICS
                                                                            • TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 その2 - すぎゃーんメモ

                                                                              以前に試した、アイドル顔識別の性能評価。 memo.sugyan.com それから半年以上も経ってデータ数も増えたし ちょっと確かめたいこともあったので、再び試してみた。 新データセット 前回は 40人×180件 で 計7,200件 を用意したけど、今回はもう少し多めにデータが集まっていたので(卒業などでもうアイドルではなくなってしまった子も居るけど…)、今回は 120人×200件 で 計24,000件 を抽出してデータセットを作成した。 実際にラベル付けしたデータから抽出してみると、元が同じ画像なのに加工や顔検出器のブレなどで別の顔画像として登録されてしまっているもの、明らかに同じ日・同じ場所で連写していて「ほぼ同じ顔画像」と思われるもの などの重複が結構あることに気付いて、頑張って出来る限り排除した。 前回もある程度は人力でチェックしていたけど、今回は学習済みモデルに食わせた中間層出力

                                                                                TensorFlowによるDeep Learningでのアイドル顔識別モデルの性能評価と実験 その2 - すぎゃーんメモ
                                                                              • パターン認識・機械学習勉強会

                                                                                2014年 パターン認識・機械学習勉強会 資料 第1回:イントロダクション 第2回:ベイズ確率・ベイズ識別・モデルの検証 第3回:モデル選択基準・MCMC法 第4回:ギブスサンプリング・線形識別モデル 第5回:線形識別モデル:ロジスティック回帰 第6回:線形識別モデル:ベイズロジスティック回帰,フィッシャーの線形判別 第7回:ニューラルネットワーク 第8回:ニューラルネットワーク(続き) 第9回:ニューラルネットワーク(続き) 第10回:カーネル法, カーネル密度推定法,カーネル回帰分析 第11回:カーネル法:ガウス過程 第12回:サポートベクターマシン, ソフトマージン 第13回:多クラスSVM, SVM回帰, 関連ベクターマシン 第14回:ベイジアンネットワーク 第15回:ジョインツリーアルゴリズム 第16回:ジョインツリーアルゴリズム(続き) 第17回:マルコフ確率場・ファクターグラ

                                                                                • 「入門 機械学習」を献本していただきました - EchizenBlog-Zwei

                                                                                  「入門機械学習」を献本していただきました。ありがとうございました。 というわけで早速読み終わったので感想を書いておく。 機械学習の入門書ではない 本書はタイトルから連想されるような機械学習に入門するような内容は書かれていない。一切数式は登場せずアルゴリズムはすべてブラックボックス化されている。では本書はダメな本なのかというとそんなことは全くない。少なくとも「入門 機械学習」というタイトルに興味をもって本書を手にとった人にとっては大変有益な本だと思う。 大きなデータを扱って何かしたい人が最初に読むべき本 繰り返すが本書は機械学習の仕組みについては書いていない。仕組みはブラックボックスとして割り切ることで従来の機械学習の入門書が触れていない部分を非常に大きく扱っている。それは何かというと「汚いデータからどうやって機械学習の入力データを作るか」「機械学習の手法をどのように選択するか」「機械学習に

                                                                                    「入門 機械学習」を献本していただきました - EchizenBlog-Zwei