s0sem0yのブックマーク - はてなブックマーク

K-fold Cross Validationの理論的優位性について - Ridge-institute R&D Blog

こんにちは，株式会社Ridge-iリサーチチームの@machinery81です．今回はK-fold Cross Validationの理論的側面を紹介したいと思います．なお本記事は@zawatsky_rによってレビューされています．本記事の内容は以下のスライドに基づいています： TL;DR はじめに Hold-Out ValidationとCross Validation K-fold Cross Validationの理論的優位性準備とゴール K-fold Cross ValidationはHold-Out Validationと少なくとも同等 K-fold Cross ValidationはHold-Out Validationに対して厳密に優越数値実験さいごに参考文献 TL;DR K-fold Cross Validationは単一のHold-Outに対して汎化バウンド

s0sem0y 2021/05/26

リンク

Stein Variational Gradient Descentの理論と実装 - Sansan Tech Blog

今年の4月に新卒入社した、DSOC R&D Groupの橋本です。前回はこちらの記事で登場しました。 buildersbox.corp-sansan.com 今回は、通常の変分推論よりも高精度に事後分布を近似するアルゴリズムの1つである、Stein Variational Gradient Descentについて説明します。まず一般的な変分推論について説明します。変分推論 (Variational Inference) 変分推論は、真の事後分布に対しパラメトリックな確率分布を仮定して事後分布を近似する手法です。Jensenの不等式を用いることで、対数周辺尤度の下限である変分下限が導出できます。入力を、確率モデルのパラメータをとすると、として変分下限が得られます。ここでは確率モデルの同時分布、は変分パラメータを有する近似事後分布を表します。さらに、対数周辺尤度と変分下限の差を

s0sem0y 2019/12/14

リンク

【Python実装】LDAのトピックをParticle Filter（SMC）で推論 - ガシンラーニング

今回は、LDA（Latent Dirichlet Allocation）の逐次モンテカルロ法（Sequential Monte Calro）であるパーティクルフィルター（Particle Filter）によるトピック推論をPythonで実装しました。コードは全てgithubに載せています。githubはこちら Twitterフォローよろしくお願いいたします。twitterはこちら以下の書籍3.5章とこの書籍が参照している元論文を参考にしました。 Online Inference of Topics with Latent Dirichlet Allocation [Canini 2009]こちらこちらの書籍はトピックモデルに限らずベイズモデリング推論の良書です。トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ) 作者: 佐藤一誠,奥村学出版社/メーカー: コロナ社

s0sem0y 2019/11/03

リンク

WebサービスのA/Bテストや機械学習でよく使う「確率分布」18種を解説 - paiza times

主な確率分布の関連図こんにちは、吉岡（@yoshiokatsuneo）です。 Webサービスを運営していると、利用状況を分析・予測したり、A/Bテストなどで検証したりすることがよくあります。データを一個一個見ていてもよくわからないので、データ全体や、その背景の傾向などがまとめて見られると便利ですよね。そんなとき、データの様子を表現するためによく使われているのが「確率分布」です。学校の試験などで使われる偏差値も、得点を正規分布でモデル化して、点数を変換したものです。今回は、Webサービスなどでよく使われる確率分布18種類を紹介します。それぞれ、Webサービスでの利用例やPythonでグラフを書く方法も含めて説明していきます。コードは実際にオンライン実行環境paiza.IOで実行してみることができますので、ぜひ試してみてください。【目次】正規分布対数正規分布離散一様分布連続

s0sem0y 2019/10/16

リンク

ガウス過程と回帰モデル（線形~線形基底~ガウス過程） - 閃き- blog

1. ガウス過程（GP, Gaussian Process） 1.1 ガウス分布の共役性 1.2 ガウス分布の切断と周辺化 1.3 ガウス過程の定義 2. さまざまな回帰モデルの比較 2.1 回帰問題とは？ 2.2 線形回帰モデル 2.2.1 線形回帰モデルの準備 2.2.2 線形回帰モデルのベイズ的解釈 2.3 線形基底モデル 2.3.1 線形基底モデルの準備 2.3.2 線形基底モデルのベイズ的解釈 2.4 ガウス過程による線形基底モデルの表現 2.4.1 ガウス過程による回帰モデルの準備 2.4.2 ガウス過程による回帰モデルによる予測 3. ガウス過程回帰をPythonで実装 3.1 RBFカーネルのためのクラス 3.2 ガウス過程回帰を行うためのクラス 3.3 グラフの描画（100フレームのアニメーション）を作成する 3.4 結果：アニメーションの描画 4. 参考書籍 ※ このポ

s0sem0y 2019/02/06

リンク

Amazonシアトル本社の英語面接対策のために僕がしたこと

こんにちは。ゆう（@honkiku1）です。 2013年に駐在員としてサンフランシスコに赴任したものの赴任先の支社が倒産。半年間に渡る就職活動の末、現在はAmazonのシアトル本社でプロダクトマネージャーをしています。そんな経験を活かし、このブログではアメリカで就職するためのポイント、アメリカでの仕事や暮らし、英語の学習方法などについて日々紹介しています。英語を母語としない日本人にとって、アメリカ企業を受ける際の最大の難関はやはり面接でしょう。書類選考や筆記試験は、受験英語プラスアルファで何とかなったとしても、面接ではやはりそれなりに高度な英語運用能力が求められます。この記事では、僕がAmazonのシアトル本社で面接を受けた際に、どのような準備をして臨んだかについてご紹介します。この方法は、Amazonに限らずどの企業の面接に対しても普遍的に有効だと思うので、これからアメリカ企業

s0sem0y 2019/01/02

リンク

遺伝的プログラミングによる特徴量生成でLightGBMの精度向上【kaggle Advent Calendar 11日目】 - u++の備忘録

本記事は、kaggle Advent Calendar 2018の11日目の記事です。 qiita.com 執筆のきっかけ先日参加したKaggle Tokyo Meetup #5 の ikiri_DS の発表「Home Credit Default Risk - 2nd place solutions -」にて、遺伝的プログラミングで生成した特徴がLocal CV、Public LB、Private LBの全てで精度向上に貢献したという話がありました。 connpass.com 遺伝的プログラミングや遺伝的アルゴリズムは、大学の学部時代から興味があり、ブログでも何度か取り上げてきました。しかしKaggleなどで試したことはなかったので、自分で手を動かして検証してみようと考えた次第です。 upura.hatena blog.com upura.hatena blog.com 遺伝的プログラミン

s0sem0y 2018/12/11

リンク

【kaggle Advent Calendar 2018：3日目】Cross Validationはなぜ重要なのか - u++の備忘録

本記事は、kaggle Advent Calendar 2018の3日目の記事ということにします。本日、このAdvent Calendarに空きがあると気付いたので、穴埋めの形で急遽記事を執筆しました。僕が遅刻したわけではありません。 qiita.com TwitterでこのAdvent Calendarに書く話題を募集したところ、次のようなリプを頂きました。めぇっちゃ個人的な戯言なので適当に流して頂いて良いのですがバリデーションの切り方の話とか読みたいなぁと思います。— icebee (@icebee__) December 4, 2018 本記事ではまず、そもそも「Cross Validationはなぜ重要なのか」について言及しようと思います。 Cross Validationの重要性 validationがない場合パッケージやデータの準備訓練と予測精度の検証ホールドアウト検

s0sem0y 2018/12/08

リンク

condaとpip：混ぜるな危険 - onoz000’s blog

Anaconda環境下でpipを使う場合のリスクについて、日本語で書かれたページがほとんど見つからなかったので覚え書き。追記その２(2020-10-24) １年越しですが補足記事書きました。以下の内容には2020年には当てはまらないものもいくつかあるので、ご注意ください。追記 (2019-09-27) 予想以上にたくさんの方にこのエントリーを読んでいただけているようでありがとうございます。細かい表現を推敲したほか、Anacondaのドキュメントが全部リンク切れしていたので修正しました。また、SNS等での反応を見ていて一部誤解や認識違いがあるようなので後日補足エントリーを書こうと計画しています。余談なのですが、個人ブログの記事って結構怪しい情報が多いです。ググると個人ブログ（とか各国のQ&Aサイト）が上位に出てくることが多く、それを見て満足してしまうことも多いかと思いますが、（私の記

s0sem0y 2018/11/17

リンク

Facebookのバグ自動修正ツール "SapFix" とは何ぞや？ - bonotakeの日記

前回の記事↓で国内ソフトウェア工学事情を勢いに任せて書いたら思いのほか炎じょ……バズってしまい、しかも身内のソフトウェア工学の先生方に火をつけまくってしまいまして、いやはや。関係者の皆様すみませんでした*1。フォローの記事も書こうと思ってたんですが、少々タイミングを逸してしまった感。でも少し誤解を与えたところもあるんで、また時間ができれば書こうかと思います。 bonotake.hatena blog.com しかし、それから一週間くらい経ちまして、今度はソフトウェア工学に関わる人間としてはなかなか嬉しいニュースが。それで、つい以下のようなツイートをしたところ、これも軽く話題になってるようで、今もまだ通知が止まらない感じです。 automatic repair、ついに来たかこれはガチで近年のソフトウェア工学の成果 Facebook、バグを自動で修正する新ツール「SapFix」開発 htt

s0sem0y 2018/09/16

勝手に先端企業だからすごい技術使ってるのかと思ったら、ふと現実に目を向けさせてくれる代物だった。

リンク

なぜ仕事に好き／嫌いを持ち込むの？ - Everything you've ever Dreamed

ホワイト企業と思われる会社に就職して丸１年、１０日間の夏休みが付与されているにもかかわらず、お盆期間中も会社に来て仕事をしているのは自業自得あるいは因果応報に他ならない。先月おこなわれたボス主催の《新規事業アイディア社内コンテスト》に「採用されたら面倒だから」つってフザけた企画を挙げたら「なかなか面白いやってみろ」と謎の評価を受け、事業計画書を書くハメになったからである。フザけているから実現性が皆無であること、フザけていたのがボスにバレるのはよろしくないのでそれなりの実現性をもったものを書かなければならないこと、その２つに挟まれて頭を抱えており、この僕の苦悩はメイド・リフレでしか癒せない種類のものだ。はっきりいって贅沢な悩みだ。まともに仕事に向き合っての悩みだから。今の職場は基本的に快適である。前の職場のように「貴様だけノルマ達成は許さない！」「死なば諸共！」という怨念や嫉妬による上司・

s0sem0y 2018/08/15

リンク

IoTミニ四駆製作キット「MKZ4」を作ってみました - karaage. [からあげ]

IoTミニ四駆製作キット「MKZ4」が届きました！会員になっている、自宅IoT友の会のブログの方で書いた下記記事で予約購入報告した「MKZ4」が届きました！（7月下旬でした）。こりゃ作ってみないといかん！ということで、早速作ってみました。基本はキットの説明書の通りなのですが、想像していたより上級者向けでした。少し補足した方がよいかなという点もあったので、注意点等を踏まえて製作記録がてら公開していきたいと思います。ちなみに私がハマったポイントと解決方法は下記2点でした。ソフトウェアが書き込みできない -> TX,RXを入れ替えたら解決真っ直ぐ走れない -> キャリブレーションツールを自作して解決必要なもの MKZ4 - Cerevo official store 「MKZ4」キット。もちろん必須ですタミヤワイルドミニ四駆シリーズ No.06 ワイルドザウルス 17006 出版社

s0sem0y 2018/08/03

リンク

だれでもわかる！内部留保の話(トヨタの内部留保は5000年!?) - R&D: りょうえんダイアリー

トヨタの内部留保、使い切るのに5千年、という記事が目に止まったので内部留保って、実際のところなに？(トヨタにそれだけの現金があるわけじゃないよ！) って話を、MBAでも誰でもわかるように書きたいと思います。まず、本記事は特定の政党批判をしたいわけではありません。ただ「企業のたんまり溜め込んだ内部留保を使えばええやろ！」という誤解を解きたい記事です。（共産党以外にも、内部留保に課税する、を公約に掲げた党や、「内部留保を溜め込んでいる！還元すべき」という論調のメディアも良くあります）この内部留保使い切るのに５千年、というのは、２つの意味でナンセンスです。毎日給与27円アップ！！うれしい？まず、ひとつめは大変単純な計算なのですが、トヨタ自動車の３月期決算を見てみたら、子会社も含めて連結内部留保は約２０兆円。毎日１千万円ずつ使っていくとする。想像できませんが、使い切るのに５４８０年かか

s0sem0y 2018/07/03

おー、分かりやすかった！面白い

リンク

量子計算のための「テンソル積」入門 - めもめも

何の話かと言うと量子計算の説明で必ず出てくるのが、といったヘソマークを用いた積（テンソル積）です。テンソル積の定義にはいくつかの方法（流派？）があり、個人的には、双対空間を用いた多重線型写像として定義するのがいちばんスッキリするのですが、数学的な厳密性にこだわらない方むけには、いまいち抽象的すぎて、遠回りな説明に感じられるかも知れません。そこでここでは、一番ベタな「数ベクトル」による、基底を用いた定義を使って、テンソル積を説明してみます。 1階のテンソル量子計算の話を念頭に置いて、2次元の複素ベクトル空間で話を進めます。まずは、2個の複素数を縦にならべた「縦ベクトル」を考えます。一般には、これは、「複素数ベクトル」と呼ばれるものですが、ここでは、これに「1階のテンソル」という別名を与えます。また、これを転置して横に数字を並べて、さらに、各成分の複素共役をとったものを考えます。

s0sem0y 2018/06/03

２階テンソルを勝手にFlattenして同一視して良いのか？という疑問は直感的に、「(0, 2) 型テンソル全体の空間は、(0, 1) 型テンソルのテンソル積全体よりも真に大きな空間」という気がしてたからだ！スッキリした。

リンク

量子計算（量子回路）の考え方を理解するために最低限必要な量子力学の知識を（それなりに納得感のある形で）うまいこと導入する方法について考えてみた（その5） - めもめも

何の話かというと enakai00.hatena blog.com の続編です。前回、2量子ビットの状態は、・：確率 1 でが得られる状態・：確率 1 でが得られる状態・：確率 1 でが得られる状態・：確率 1 でが得られる状態を基底ベクトルとする4次元の複素ベクトルで表されることを説明しました。一般の状態は、下記のように表されます。また、量子ビットに対する操作は、のユニタリ行列で表されることも説明して、ちょっと興味深い例として、次の Controlled-NOT 演算の行列を紹介しました。この後は、実際の量子計算機で用いられる具体的な演算操作（ゲート）を学んでいけばよいのですが、個々の演算操作を行列の代わりにブラケット記号で表記するという方法があります。実際に回路の計算をする際は、ブラケット記号の方が便利なことも多いので、ここでは、ブラケット記号による演算の手続きを

s0sem0y 2018/05/27

ちょうどココらへんの慣れが必要だと思っていた内容でした！！

リンク

量子計算（量子回路）の考え方を理解するために最低限必要な量子力学の知識を（それなりに納得感のある形で）うまいこと導入する方法について考えてみた（その1） - めもめも

何の話かというと enakai00.hatena blog.com 先日、上記のエントリーを公開したところ、予想以上のアクセスをいただいたのですが、「なるほどわからん」的なコメントも散見されて、量子計算に対する関心の高さと同時に、「はじめの一歩」の敷居の高さを痛感したわけです。いやまぁ。ぶっちゃけ、私自身、ここ数ヶ月、がーーーーーーっと教科書を読んで勉強した「にわか」なんですが、幸い、大学時代に勉強した量子力学の基礎知識があったので、比較的すっきりと理解はできたんですよ。 enakai00.hatena blog.com ただ、これって、逆に言うと、量子力学の知識がないと、やはり、 ( ﾟдﾟ) なにいってんだこいつとなるのかなぁ。。。と。で、波動関数やらシュレーディンガー方程式やら、そのあたりはすっとばして、量子計算（量子回路）の考え方を理解するために最低限必要な量子力学の知識を（それ

s0sem0y 2018/05/22

量子力学の勉強して頭がおかしくなったのを思い出してきたぞ…

リンク

『ベイズ統計の理論と方法』の行間を読む I - ill-identified diary

概要渡辺澄夫の『ベイズ統計の理論と方法』 (以下, 渡辺本) は, 私のように統計学は多少知ってるものの, 統計力学を知らない人間にとっては, 「自由エネルギー」だの「分配関数」だのが何を意図して定義された統計量 (物理量?) なのかよくわからず, はじめは数式を目で追うことしかできなかった. 加えて, 渡辺本は, 実務に役に立つテクニックなどといった趣旨の本ではなく, 統計学的なモデリングや機械学習*1の理論を統一的に説明することを目的としている. そのため, 統計モデルを抽象的に一般化してその性質を説明する一方で, 混合分布モデルとか, ニューラルネットとか具体的な手法についての言及は控えめであることも, 人によっては理解が進まない原因になっていそうである. しかし, 難解であっても, 渡辺本に書かれている内容は非常に価値がある. 例えば, 以前私が [教材] 今更だが, ベイズ統計と

s0sem0y 2018/03/30

ちょうど4章以降は自分が読解するのを諦めたとこなので、とても楽しみにしてます😇

リンク

線形回帰を１つ１つ改造して変分オートエンコーダ（VAE）を作る - 作って遊ぶ機械学習。

こんばんは．今日は統計や機械学習において最も基本となる手法である線形回帰から出発し，１つ１つモデルや学習方法に変更を加えていき，最終的に深層学習の分野で非常に良く使われている生成モデルである変分オートエンコーダ（variational auto-encoder，VAE）*1*2を導いていきたいと思います． 2014年に発表されたVAEは，勾配近似を得るためのreparametrization trickや，効率的に潜在変数を近似推論する認識モデル（recognition model, inference model）の導入，確率的勾配法（stochastic gradient descent，SGD）の2重適用など，様々なアイデアが散りばめられている確率的生成モデルです．背景としては，当時ニューラルネットワークを用いて画像を生成するといったアプローチが（CNNを使った識別などと比べて）そ

s0sem0y 2018/03/25

リンク

PyTorch (11) Variational Autoencoder - 人工知能に関する断創録

今回は、Variational Autoencoder (VAE) の実験をしてみよう。実は自分が始めてDeep Learningに興味を持ったのがこのVAEなのだ！VAEの潜在空間をいじって多様な顔画像を生成するデモ（Morphing Faces）を見て、これを音声合成の声質生成に使いたいと思ったのが興味のきっかけだった。今回の実験は、PyTorchの公式にあるVAEのスクリプトを自分なりに読み解いてまとめてみた結果になっている。 180221-variational-autoencoder.ipynb - Google ドライブさっそく実験！いつものimport。 import os import numpy as np import torch import torch.nn as nn import torch.utils.data import torch.optim a

s0sem0y 2018/03/01

TensoFlowの練習で自分もやってみよ😄

リンク

PyTorch (10) Autoencoder - 人工知能に関する断創録

Autoencoderの実験！MNISTで試してみよう。 180221-autoencoder.ipynb - Google ドライブ 28x28の画像 x をencoder（ニューラルネット）で2次元データ z にまで圧縮し、その2次元データから元の画像をdecoder（別のニューラルネット）で復元する。ただし、一度情報を圧縮してしまうので完全に元の画像には戻らず再構成した画像 xhat は入力画像の近似となる。さっそくやってみよう。まずはいつもの。 import os import numpy as np import torch import torchvision from torch import nn from torch.autograd import Variable from torch.utils.data import DataLoader from torchvi

s0sem0y 2018/02/25

pytorchのSequential本当に便利だ🤤

リンク

はてなブックマーク

s0sem0yのブックマーク (64)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス