タグ

モデリングに関するomega314のブックマーク (152)

  • 東大情報学環大澤昇平氏の差別発言について - researchmap

    東京大学大学院情報学環特任准教授の大澤昇平氏(@Ohsaworks)が、11月20日にtwitter上で行った差別発言について書きます。この件については、11月24日に情報学環長名ですでに以下のような文書が出されています。 しかし残念ながら、上記の文書からは誰がどのような言動を行い、それがなぜ問題なのかということがわかりません。筆者(明戸)は現在同じ大学、同じ部局の特任助教であり(ただしプロジェクト雇用なので部局そのものの運営等には関わっていません)、また差別やヘイトスピーチにかかわる研究者でもあります。こうしたことをふまえて、ここでは明戸個人の立場から、今回の経緯および論点を整理し、自身の立場を明らかにしておこうと思います。

    omega314
    omega314 2019/11/25
    良識だ。 / データの背景を読まない・読めないなら数理論理学とかに転向すればとか思わなくもないが、AIやってる人の思考がAIっぽくなるのは程度の差はあれど稀によく見かける気もする。
  • ディープラーニングは自動で特徴を抽出してくれる? - HELLO CYBERNETICS

    はじめに 特徴抽出とは ニューラルネットワークによる特徴抽出 深層学習は特徴抽出を自動で行うのか 補足:当に自動機械学習に向けて はじめに 未だに強く主張されることの多い「ディープラーニングは人手の特徴抽出作業を自動で実施してくれる」という話。 このことについては肯定も否定もしないというのが私の立場ですが、基的に「思っているより思い通りには行かない」という事実があることは主張しておきたいです。 そのために、今回「ディープラーニングが自動で特徴抽出を行ってくれる」ということがどういうことなのかを簡単に説明します。 特徴抽出とは まず特徴抽出とは何かを説明していきましょう。特に断りが無い限りは大文字は行列、小文字はベクトルあるいはスカラーだと思って差し支えありません(今回は特に細かい数式の設定が議論に影響することはありません)。 今、入力 $x$ で出力が $y$ となるような適当なデータ

    ディープラーニングは自動で特徴を抽出してくれる? - HELLO CYBERNETICS
  • ベイズ推論による機械学習の基本 - 作って遊ぶ機械学習。

    今回は基的なベイズ学習の概念と流れを説明したいと思います。まず始めに、ベイズ学習のすべての基となる2つの計算規則(和の規則、積の規則)を取り上げます。また、ベイズ学習に関わるややこしい用語たち(データ、尤度関数、事前分布、事後分布、エビデンス、予測分布、などなど)に関しても念のためここで整理しておきたいと思います。そして最後に、簡単な多次元のガウス分布とウィシャート分布を使ったベイズ推論の例を取り上げ、それぞれの用語や概念との具体的な結びつきについて触れたいと思っています。 ・ベイズ学習の基概念 さて、確率モデルを使ったベイズ推論を行う上で最小限必要なのは次のたった2つの計算ルールです。 <和の規則> <積の規則> は同時分布(joint distribution)、は条件付き分布(conditional distribution)と呼ぶんでした。極端な言い方をしてしまうと、ベイズ推

    ベイズ推論による機械学習の基本 - 作って遊ぶ機械学習。
  • 【訓練誤差と汎化誤差】学習・統計的推定は正しいのか?【過学習】 - HELLO CYBERNETICS

    はじめに 学習の目的と試み 真の目的に対する我々の現実 データのサンプリング(採取) 真の目的と推定・学習の関係 具体的な学習の試み 正則化による統計モデルの制限 ハイパーパラメータの調整 最終評価 (補足)ベイズ推論 理論的な学習の評価 これまでの話との関連 汎化誤差の近似 最後に はじめに 機械学習、統計分析に少しでも触れたことのある方は「過学習」という言葉を聞いたことがあるでしょう。 データに対してパラメータをうまくフィッティング させすぎている場合 に生ずる現象です。 過学習が起こらないように上手に正則化などを用いて、学習できる能力を制限したり、日夜ハイパーパラメータの調整に明け暮れている人もいるかもしれません。今回は訓練誤差と汎化誤差という2つの誤差をしっかりと理解して、なぜに過学習なるものが起こるのかを見ていきます。 そうすることで、普段行っている「学習」であるとか「推定」であ

    【訓練誤差と汎化誤差】学習・統計的推定は正しいのか?【過学習】 - HELLO CYBERNETICS
  • 実践!ベイズ学習 - 作って遊ぶ機械学習。

    今回は、実問題を解くためのベイズ学習による機械学習アルゴリズムの構築方法に関してざっくり俯瞰してみたいと思います。ここで解説するフローは僕が実問題にアプローチする際に意識しているものですが、おそらくこれはベイズ学習のみならず、広く一般的な統計モデリングや機械学習の問題解決にも適用できると思います。 <アルゴリズムの開発フロー> あまりファンシーな図でなくて申し訳ないですが、これから1つ1つの項目と各々の遷移に関して説明していきます。 1、データ・課題の整理をする まず、機械学習を使って解きたい問題や実現したいサービスを定義してみます。データはあるんだけど何をして良いかわからない、という場合もあるかもしれませんが、そういうときでもとりあえず何かしらの目標を仮置きしてみるのが良いかと思います。基的に機械学習でできることは「見えない情報の予測」であると考えればアイデアが発想しやすいかもしれませ

    実践!ベイズ学習 - 作って遊ぶ機械学習。
  • 作って遊ぶ機械学習。

    今回は8月に出版した講談社機械学習プロフェッショナルシリーズの「ベイズ深層学習」の概要を書いてみます. www.kspub.co.jp 講談社のページ等では目次は載っていますが,それより詳細な情報はネットにはないので,もう少しだけ踏み込んだ内容をここで紹介することにします. 内容紹介 第1章 はじめに ベイズ統計と深層学習(ディープラーニング)は仲が悪いように世間的には見られがちですが,実は両者は非常に親和性が高いことを解説しています. 両分野のそれぞれの利点としては,ベイズ統計ではモデルの高い解釈性や設計の明確さ,深層学習ではGPUなどを用いた大規模データの効率的な計算方法等を挙げることができます.これらの利点は相補的であり,組み合わせることによってアルゴリズムの改善が期待できます. また,両分野には共通点もあります.深層学習ではタスクごとにネットワーク構造を設計する必要性がありますが,

    作って遊ぶ機械学習。
  • MLPシリーズ「ベイズ深層学習」概要まとめ - 作って遊ぶ機械学習。

    今回は8月に出版した講談社機械学習プロフェッショナルシリーズの「ベイズ深層学習」の概要を書いてみます. www.kspub.co.jp 講談社のページ等では目次は載っていますが,それより詳細な情報はネットにはないので,もう少しだけ踏み込んだ内容をここで紹介することにします. 内容紹介 第1章 はじめに ベイズ統計と深層学習(ディープラーニング)は仲が悪いように世間的には見られがちですが,実は両者は非常に親和性が高いことを解説しています. 両分野のそれぞれの利点としては,ベイズ統計ではモデルの高い解釈性や設計の明確さ,深層学習ではGPUなどを用いた大規模データの効率的な計算方法等を挙げることができます.これらの利点は相補的であり,組み合わせることによってアルゴリズムの改善が期待できます. また,両分野には共通点もあります.深層学習ではタスクごとにネットワーク構造を設計する必要性がありますが,

    MLPシリーズ「ベイズ深層学習」概要まとめ - 作って遊ぶ機械学習。
  • ロボットが「倫理」を実装するとき | RAD-IT21

    広島大学大学院文学研究科助教 1986年生まれ。広島大学大学院文学研究科博士課程後期修了、博士(文学) 著訳書として D・アーミテイジ『思想のグローバルヒストリー』(共訳、法政大学出版局、2015年)、『少子超高齢者会の「幸福」と「正義」』(共著、日看護協会出版会、2016年)他。 ロボットの「倫理」とは? 人の手を離れて自律的に動作するロボットが我々の社会の中でさまざまな役割を担うようになったなら、そうしたロボットにも「倫理」が実装されるべきだとする考えは、アイザック・アシモフのロボット三原則に言及するまでもなく古くから存在する。ロボットが人間と同等の「行為者」とみなされるか否かにかかわらず、人々の福利がロボットの動作の影響を受けることになるなら、ロボットの動作には何らかの安全策が必要だからだ。 そこまではよい。問題は、ロボットに実装されるべき「倫理」とはいったいいかなるものであり、そ

    ロボットが「倫理」を実装するとき | RAD-IT21
  • AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

    はじめに 一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。 やったこと 歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化 ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。 歌詞データ 今回用いる歌詞データについて説明します。 クローリングで取得 先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。 実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea

    AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita
  • スパース推定法による統計モデリング - 共立出版

    変数選択問題は統計学における重要な問題の一つである。この問題に対して、近年、変数選択とモデルの推定を同時に行うスパース正則化を用いる方法が開発された。この方法によって、従来では扱うことが難しかった高次元データに対しても変数選択が実行可能となり、スパース正則化法は一気に注目されるようになった。さらに、変数選択だけでなく、データ発生の疎性構造を抽出するという、より一般的な観点からの研究が進むようになり、たとえば、グラフ構造における辺選択などにも拡張されている。これらの方法は総称してスパース推定と呼ばれ、統計学の基ツールになりつつある。 書は、スパース推定の入門的内容から発展的内容までを解説している。実用性を重視するため、スパース推定を用いた統計モデリングを中心にできるだけ数多く解説し、「スパース推定を用いると、こういう統計解析が可能になる」というような、統計解析におけるスパース推定の有用性

    スパース推定法による統計モデリング - 共立出版
  • 人にうれしいAIのためのUXデザインガイド(People + AI Guidebook)

    はじめに 「人にうれしいAIのためのUXデザインガイド」にようこそ。 このガイドブックは、人間中心のAIプロダクトをつくるのに役立ちます。一般的なミスを避け、優れたエクスペリエンスをデザインし、AIによるアプリケーションをつくることに集中できるようにします。 ガイドブックは、ユーザーエクスペリエンス(UX)の専門家やプロダクトマネージャーが、開発チームとともに、AIに人間中心のアプローチをするための手助けになります。もちろん、このガイドブックは、より人間中心の方法でAIプロダクトをつくりたいと思っている、あらゆる立場の人にとっても、役立つことでしょう。 6つの章があり、それぞれに演習、ワークシート、リソースがあります。ガイダンスを具体的な行動に変えることができるようになっています。 ユーザーニーズ + 成功の定義 データ収集 + 評価 メンタルモデル 説明 + 信頼感 フィードバック +

    人にうれしいAIのためのUXデザインガイド(People + AI Guidebook)
  • http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2018/ML_Gairon/ML_Gairon_02_mod.pdf

  • 深層学習の数理

    2. 1946: ENIAC,高い計算能力 フォン・ノイマン「俺の次に頭の良い奴ができた」 1952: A.Samuelによるチェッカーズプログラム 機械学習人工知能歴史 2 1957:Perceptron,ニューラルネットワークの先駆け 第一次ニューラルネットワークブーム 1963:線形サポートベクトルマシン 1980年代:多層パーセプトロン,誤差逆伝搬, 畳み込みネット 第二次ニューラルネットワークブーム 1992: 非線形サポートベクトルマシン (カーネル法) 統計的学習 線形モデルの限界 非凸性の問題 1996: スパース学習 (Lasso) 2003: トピックモデル (LDA) 2012: Supervision (Alex-net) 第三次ニューラルネットワークブーム データの増加 +計算機の強化 1960年代前半: ELIZA(イライザ), 擬似心理療法士 1980年代

    深層学習の数理
  • スパースモデルではshrinkage factorの分布を考慮しよう ~馬蹄事前分布(horseshoe prior)の紹介~ - StatModeling Memorandum

    ベイズ統計の枠組みにおいて、回帰係数の事前分布に二重指数分布(ラプラス分布)を設定し回帰を実行してMAP推定値を求めると、lassoに対応した結果になります。また、回帰係数にt分布を設定する手法もあります。これらの手法は「shrinkage factorの分布」という観点から見ると見通しがよいです。さらに、その観点から見ると、馬蹄事前分布が魅力的な性質を持っていることが分かります。この記事ではそれらを簡単に説明します。 なお、lassoそのものに関しては触れません。岩波DS5がlassoを中心にスパースモデリングを多角的に捉えた良い書籍になっているので、ぜひそちらを参照してください。 岩波データサイエンス Vol.5 発売日: 2017/02/16メディア: 単行(ソフトカバー) 参考文献 [1] C. Carvalho et al. (2008). The Horseshoe Esti

    スパースモデルではshrinkage factorの分布を考慮しよう ~馬蹄事前分布(horseshoe prior)の紹介~ - StatModeling Memorandum
  • 特徴量選択の今とこれから - 学習する天然ニューラルネット

    特徴量選択とは 特徴量選択の難しさ 特徴量選択の手法の大別 教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる 関係性を上げて冗長性を下げる 関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Elimination 遺伝的アルゴリズムと粒子群最適化 その他のwrapper method embedding method L1正則化 Regularized tree 特徴量選択のこれから 超高次元データと特徴量選択のアンサンブル 不均衡データにおける特徴量 オンライン特徴量選択 深層学習を用いた特徴量選択 最後に 特徴量選択とは 特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。 例えば、製造業において欠陥品を判別するタスクを考えてみよ

    特徴量選択の今とこれから - 学習する天然ニューラルネット
  • 明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎

    2019年6月28日の明治大学での講義資料です。 できるだけ数式を使わずに『機械学習のおさらい』『自動ハイパーパラメタ最適化』『Optuna の使い方』『ベイズ最適化の応用事例』について説明しています。 ●Optuna : https://github.com/pfnet/optunaRead less

    明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
  • Disk Embedding による非循環有向グラフの表現獲得 - LAPRAS AI LAB

    LAPRAS のアルゴリズムエぬジニア 兼 リサーチャーの鈴木です。AI Lab への投稿は初めてですので、簡単に自己紹介をしておきます。私は大学で理論物理学の修士号を取った後、大手電機メーカーの研究所で機械学習・信号処理などを研究していましたが、「世の中のミスマッチをなくす」というビジョンに共感し、昨年の11月からLAPRAS (旧 scouty) にジョインしました。これまでの主な研究成果は [Suzuki, 2014], [Suzuki, 2017] などです。よろしくお願いします。LAPRAS のリサーチチームでは、LAPRASの「世の中のミスマッチをなくす」というビジョンを達成するため、「個人に最適な選択肢を与えるための基盤技術」となりうる分野について調査・研究を進めています。現在は特に、自然言語処理、知識グラフ、埋め込みの分野から新しいブレークスルーが生まれるのではないかと信じ

    Disk Embedding による非循環有向グラフの表現獲得 - LAPRAS AI LAB
  • 古典統計学・ベイズ統計・統計モデリングの関係について - Tarotanのブログ

    2019年1月4日 9:30頃 追記 同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋). #統計 もう一度書くと、 * 予測分布の予測性能の比較→AIC, WAIC, LOOCVなど * モデルによるサンプル生成の確率分布がサンプルの真の分布にどれだけ近いかを比較→自由エネルギー, BIC, WBICなど — 黒木玄 Gen Kuroki (@genkuroki) January 3, 2019 ありがとうございます. ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません. 特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークやベイズモデルなど

  • HUNTER×HUNTERの念能力6系統で喩えるデータ分析スキル - 六本木で働くデータサイエンティストのブログ

    HUNTER×HUNTER モノクロ版 36 (ジャンプコミックスDIGITAL) 作者: 冨樫義博出版社/メーカー: 集英社発売日: 2018/10/04メディア: Kindle版この商品を含むブログを見る みんな大好きHUNTER×HUNTERの36巻発売を記念して、調子に乗って面白いことを考えてみました。。。と言いますか、正確には某所で提案をいただいたのでやってみることにしました。題して「念能力6系統で喩えるデータ分析スキル」です。一見バカバカしい感じもしますが、念能力6系統のように「それぞれに独立した軸として定義可能でしかも互いの親和性も表すことができる」という点で、なおかつHUNTER×HUNTERファンであれば容易にその位置付けが理解できるという点で、データ分析スキル同士の関連性をある程度分かりやすく表せるのではないかなと思ったのでした。 スキルセットの一覧については、以前のス

    HUNTER×HUNTERの念能力6系統で喩えるデータ分析スキル - 六本木で働くデータサイエンティストのブログ
  • 定式化の結晶 - 小人さんの妄想

    ・問題とは、何が問題なのかが分からないことが問題なのである。 ・明確な質問の形にできたとき、問題は8割以上解けている。 ・数学とは、解法の寄せ集めではなく、言語である。 -- 詠み人知らず。 学生の頃、先生からこんな話を聞いたことがあります。 『分析化学の仕事は、良いサンプルを準備するところまで。あとは分析機器が答を出す。』 それまで私は分析化学というものに、試薬の色が変わったとか、沈殿したとか、そんなイメージを思い描いていました。 ところがこのイメージは、現代の分析化学には当てはまりません。 分析の主役は、高度に発達した分析機器 〜 X線回折、NMR、クロマトグラフィーといった一群の機械装置なのです。 もちろん試薬の色や沈殿が無くなったわけではないのですが、それらはすでに現在の主流ではありません。 数ある分析機器の中でも、私が特に驚いたのは「X線回折装置」でした。 これを使うと、タンパク

    定式化の結晶 - 小人さんの妄想
    omega314
    omega314 2018/09/06
    “カウンセリングには「カウンセラーが自ら解決してはならない」という鉄則 ~ カウンセラーは何をするのかというと、「ひたすら問題を整理して示す」 ~ 問題を解くのは、相談を持ちかけた本人でなければならない”