タグ

statに関するboxheadroomのブックマーク (20)

  • Pythonでカーネル密度推定 - Qiita

    カーネル密度推定(Kernel Density Estimation: KDE)とは Wikipediaあたりご参考願います。 状況によっては(データ数が多い、滑らかな分布関数に従っている、etc.)、ヒストグラムよりデータの概要を把握するのに役立ちます。 適当なデータを作る まずは必要なパッケージを読み込み、正規分布を重ねあわせた双峰性のデータセットを5個ほど作ります。 import numpy as np from scipy.stats import gaussian_kde import matplotlib.pyplot as plt N = 5 means = np.random.randn(N,2) * 10 + np.array([100, 200]) stdev = np.random.randn(N,2) * 10 + 30 count = np.int64(np.in

    Pythonでカーネル密度推定 - Qiita
  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

    dfltweb1.onamae.com – このドメインはお名前.comで取得されています。
  • メモ: numpyアクセス高速化 – Momentum

    概要 ・Cythonを用いてnumpyのarrayへのアクセスを高速化する ・numpy使用時に陥りがちな罠(様々なサイトで書かれているが)をまとめておく 準備(setup.py) とりあえずsetup.pyを用いたコンパイル方法を使うにあたって、numpyのarrayを使う際に微妙に書き換える場所があるのでそれをメモ include_dirsの設定を行う必要がある

  • ロボティクスにおける線形代数 - MyEnigma

    プログラミングのための線形代数posted with カエレバ平岡 和幸,堀 玄 オーム社 2004-10-01 Amazonで探す楽天市場で探すYahooショッピングで探す 目次 目次 はじめに 回転行列 2次元空間における回転と並進座標変換 3次元空間における回転行列 微小角度変化時の回転行列近似 ベクトルの内積 ベクトルの外積 特異値分解 Iterative Closest Point (ICP)アルゴリズム 画像圧縮 ヤコビ行列 1. 勾配法による最適化計算 2. 非線形関数の一次項近似、共分散の遷移 ヘッセ行列 共分散行列(分散共分散行列) 相関行列 情報行列(精度行列) 行列の二次形式 二次形式の利用用途 最小二乗法 線形代数の基礎 参考資料 MyEnigma Supporters はじめに 大学の理系学科に進学すると、 まず初めに受ける授業の一つに『線形代数学』があります。

    ロボティクスにおける線形代数 - MyEnigma
  • PyStanでMCMC入門 - old school magic

    概要 PyStan は Stan というMCMC計算用言語の Python インターフェイスです。 Stan http://mc-stan.org/ PyStan http://pystan.readthedocs.org/en/latest/index.html MCMCを計算できるソフトはいくつかあるのですが、Stan は C++で実装されているため高速 最近のサンプリング法を実装している といった特徴があります。特に速度には目を見張るものがあります。 前回までは PyMC3 をいじっていたのですが、他のソフトにも触ってみようと思い、今回は PyStan でモデリングをしてみました。 PyStan のインストール Anaconda を入れればもれなく一緒にインストールされます。 Anaconda https://store.continuum.io/cshop/anaconda/ 参考

  • Ubuntu 14.04 に Anaconda で Pymc3 を使えるようにするまで(2014/08/08現在) - けいれん現象の幽玄美よ

    2014-08-08 Ubuntu 14.04 に Anaconda で Pymc3 を使えるようにするまで(2014/08/08現在) Python Linux はじめに ArchLinuxでしたらPythonはアップデートで新しいバージョンに対応していきますが、Ubuntuではそうはいきません。 また、Ubuntu14.04ではpyvenvやensurepipが困ったちゃんだったりでゲンナリしてます。 そこで、「Anacondaかminicondaを使えば幸せになれるのではないか!?」と思い実際にやってみました。 それから、Pymc3をインストールするまでを記載しますが、あくまで2014/08/08現在のインストール手順です・・・Pymc3はalpha版ですし依存関係や依存関係モジュールのバージョンアップ等でも状況が刻々と変化しますのでその都度要対応なのですOrz よって、何度

    Ubuntu 14.04 に Anaconda で Pymc3 を使えるようにするまで(2014/08/08現在) - けいれん現象の幽玄美よ
  • 今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します - 渋谷駅前で働くデータサイエンティストのブログ

    日、出版元の技術評論社(gihyo)様の公式サイトでオープンになりました。 手を動かしながら学ぶ ビジネスに活かすデータマイニング:書籍案内|技術評論社 そして書影はまだ反映されていないようですが、Amazonでも予約受付が始まった模様です*1。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行(ソフトカバー)この商品を含むブログ (3件) を見る ということで、僕が生まれて初めて執筆した書籍が恥ずかしながら8月22日(予定)に発売されることになりました。詳しくはgihyo様の公式サイトをご覧いただきたいのですが、このブログで唯一はてブ1000超えを達成したエントリ(Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くData Scientistのブ

    今月下旬に『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)という本を出します - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計科学・機械学習の講義

    統計科学や機械学習、および関連する諸分野の講義・講演のアーカイブです。講師名の敬称は略させて頂いています。★の数は専門性・予備知識の量を示します。★1つは一般の方でも楽しめる部分のある講演(レベルが低いという意味ではありません)、★2つは大学院生向きとして標準程度、★3つはより専門的な講演、をそれぞれ示します。

    統計科学・機械学習の講義
  • ディープラーニングに対応したPythonの機械学習ライブラリ『Pylearn2』

    pylearn2はこのスライドで紹介されていたライブラリ。↓ Linuxでのインストール手順はQiitaのこの記事が詳しい。↓ http://qiita.com/mizuki0420@github/items/3f9c97b32e8d6e37abad けど、オイラはWindowsでやってやるんだ。 インストールは結構めんどくさくて、ソースコードはGitから落とし、setup.pyはbuild, installではなくdevelopオプションを使う。 Windows環境でのインストールには、他の依存ライブラリとしてnumpy, scipy, setuptools, matplotlib, dateutil, pyparsing, sixが必要。 ここの記事が詳しかった。↓ http://mikemoke.hatenablog.com/entry/2014/03/02/210439 この記事だ

    ディープラーニングに対応したPythonの機械学習ライブラリ『Pylearn2』
  • Pythonでx-means法を実装した - WEB SALAD

    はじめに 最近、このままだと修士論文がすごくシンプルな内容になりそうなことに気づいたので、ページ数を稼ぐためによりよい示唆を得るために、何か分析を足す必要が出てきました。 色々考えた結果、x-means法によるクラスタリングを行うことにしたのですが、同手法のPythonによる実装が見つからなかったので、勉強も兼ねて自分で書くことにしました。 x-means法とは x-means法はk-means法を拡張したものであり、後者が実行時にあらかじめクラスタ数を指定しなければいけないのに対し、最適なクラスタ数を自動で推定できる点が優れています。 その基となるアイデアはPelleg and Moore(2000)で初めて提案されました。 今回は、これに改良を加えた石岡(2000)の手法を実装しました。 実装 肝心のコードですが、ここに掲載するには少し長いので、Gistに上げておきました。 Impl

    Pythonでx-means法を実装した - WEB SALAD
  • 機械学習とかに使えそうなデータセット - pixyzehn blog

    photo by Régis Gaidot データセットとかの知見を集めました。 いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。 これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。 奥 健太 - 情報推薦研究ツールボックス grouplensのデータセットは、論文などにも利用されているのを見かけました。 注意点としては ・EachMovieなどは利用できない ・MovieLensやDelicious、Last.fmはdat形式のファイル ・WikiLensはdumpして使うようにされている ・Book-Crossingはcsvsql ・jesterはExcelファイル ということです。 それ以外だと ようこそ - the Datahub 情報学研究データリポジトリ データセット一覧 livedoor グルメの研究用データセットです。 20

    機械学習とかに使えそうなデータセット - pixyzehn blog
  • 欠測データの相関係数の推定法について発表しました - ほくそ笑む

    先日行われた BUGS/stan勉強会 #3 で発表させていただきました。 タイトルは「Stan で欠測データの相関係数を推定してみた」です。 欠測データに対して相関係数を求めるとき、普通のやり方では実際の値より小さい値になってしまいます。そこで、片側だけしか観測できていない不完全データを用いて推定精度を上げる方法を紹介しています。 スライドは下記にアップしています。 Stan で欠測データの相関係数を推定してみた from hoxo_m 最終的なコード全体はこちらに載せています。 Stan の勉強にあたっては、ごみ箱さん、beroberoさん、伊東さんにアドバイスを頂きました。ありがとうございます。 hoxo_mさんのバイアスの掛かったデータの相関係数の問題、よく使われる統計手法からの発展としてすごくいい例だし、片方しか観測されていないデータを使ってもあれほど改善するとは驚いた。#Tok

    欠測データの相関係数の推定法について発表しました - ほくそ笑む
  • Pythonによるモンテカルロ法入門 - 人工知能に関する断創録

    PRMLの11章で出てくるマルコフ連鎖モンテカルロ法(Markov chain Monte Carlo methods: MCMC)。ベイズでは必須と呼ばれる手法だけれどいまいち理屈もありがたみもよくわからなくて読み飛ばしていました。 最近、ボルツマンマシンを勉強していて、ベイズと関係ないのにマルコフ連鎖やらギブスサンプラーやらが出てきて格的にわからなくなってきたのでここらで気合を入れて勉強し直すことにしました。 参考にした書籍は「Rによるモンテカルロ法入門」です。PRMLと同じく黄色いなので難易度が高そう・・・このはR言語を使って説明がされていますが、それをPythonで実装しなおしてみようかなーと計画中。numpy、scipyの知らなかった機能をたくさん使うので勉強になりそう。 ただRにしかないパッケージを使われると途中で挫折する可能性が高い・・・あと内容が難しすぎて途中で挫折す

    Pythonによるモンテカルロ法入門 - 人工知能に関する断創録
  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
  • scipy.sparse: 疎行列の要素へ関数の一括適用 – はむかず!

    くだらないものばかり作ってないでたまには技術ネタを書いてみようと思う。 Python(とくにscipy.sparse)でx=0でf(x)=0となるようなユニバーサル関数fを疎行列のそれぞれの要素に作用させるにはどうすればいいだろうか。 x=0で0になるという点が重要で、その条件を満たす関数ならばもとの行列のsparsityをそのまま保存できる。つまり結果も疎行列になるはずだ。 Pythonにはユニバーサル関数という呼ばれる関数群があって、それは密行列については便利な機能で、例えば、密行列のすべての要素にtanhを作用させようとすると、次のようなコードで計算できる。 import numpy as np a=np.ones((3,3)) print a b=np.tanh(a) print b つまりユニバーサル関数は行列に作用させると各要素に作用する。以前に書いたfor文を書いたら負けとい

  • 単語の数学的表現メモ - Negative/Positive Thinking

    はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

    単語の数学的表現メモ - Negative/Positive Thinking
  • Bilgin's Blog | Kalman Filter For Dummies

    A mathematically challenged man's search for scientific wisdom When I started doing my homework for Optimal Filtering for Signal Processing class, I said to myself :"How hard can it be?". Soon I realized that it was a fatal mistake. The whole thing was like a nightmare. Nothing made sense. The equations were composed of some ridiculously complex superscripted and subscripted variables combined wit

    boxheadroom
    boxheadroom 2014/04/08
    人形でも判るカルマンフィルター 電圧計で一定だと判っている電圧を測定する場合を例にとって説明。 スプレッドシートにしてみると判りやすい
  • Gradient Boosted Regression Trees in scikit-learn

    Slides of the talk "Gradient Boosted Regression Trees in scikit-learn" by Peter Prettenhofer and Gilles Louppe held at PyData London 2014. Abstract: This talk describes Gradient Boosted Regression Trees (GBRT), a powerful statistical learning technique with applications in a variety of areas, ranging from web page ranking to environmental niche modeling. GBRT is a key ingredient of many winning so

    Gradient Boosted Regression Trees in scikit-learn
  • (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ

    どもです。林岳彦&オメガトライブです。きみは1005%(消費税込) さて。 今回は、前回の記事: 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk: 林岳彦の研究メモ のつづきの”中編”になります。記事では「因果関係があるのに相関関係が見られないケース」の中でも、「交絡・合流点」が関わるケースについて書いていきます*1。 扱う内容の範囲としては、最初の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk: 林岳彦の研究メモ と重複する部分がかなりありますが、今回の記事では、「仮想例のデータ生成」の段階からRでの計算を交えて説明していきたいと思います。(今回はちょっと「R実習」のような趣になるので、Rの読み書きができないと分かりにくい部分が多々あ

    (中編)今回は因果関係があるのに相関関係が見られない4つのケースについてまとめてみた:交絡・合流点の影響 - Take a Risk:林岳彦の研究メモ
  • 放送大学 - REDIRECT

    当サイトは移転しました。10秒後に以下のURLにリダイレクトします。 自動でリダイレクトされない場合、以下のリンクから移動してください。 https://info.ouj.ac.jp/~suuri/_webTohkei/ キャンパスネットワークホームページは教務情報システム(システムWAKABA)に統合されました。 上記に伴い「www.campus.ouj.ac.jp」ドメイン上の各サイトは「info.ouj.ac.jp」に移行されました。 2019 The Open University of Japan

    boxheadroom
    boxheadroom 2013/02/07
    放送大学の授業。この科目は学生でなくてもネットで動画を見られる。
  • 1