タグ

2016年9月25日のブックマーク (22件)

  • エンジニアが納期を守れていないとしたら、そこにはいったい何があるのだろう?(あるいはいったい何がないのだろう?)

    XP 祭り 2016

    エンジニアが納期を守れていないとしたら、そこにはいったい何があるのだろう?(あるいはいったい何がないのだろう?)
    userhiro
    userhiro 2016/09/25
    各領域の担当者がスペシャリストでないため、見積もりなんてできない。そして、それを取りまとめるPMも合算して上に報告。ジエンド。 それは日本のsierが金太郎飴を欲して採用していることが真因。
  • Pythonで動かして学ぶ機械学習入門_予測モデルを作ってみよう

    データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』

    Pythonで動かして学ぶ機械学習入門_予測モデルを作ってみよう
    userhiro
    userhiro 2016/09/25
    ん?途中?
  • 痛みと鎮痛の基礎知識 - Pain Relief

     Pain Reliefー私のための統計処理 →→→→→→ UMINサイトに 移動しました!

    userhiro
    userhiro 2016/09/25
    統計学の参考書
  • Hitosubashi University, Kenta Kobayashi's Web Site - 一橋大学 小林健太のサイト

    小林 健太 所属 一橋大学 経営管理研究科 および 一橋大学経営管理研究科ファイナンス研究センター 専門 数値解析 応用数学 数理ファイナンス 研究室 国立キャンパス 国際研究館 4F アドレス kenta.kあっとr.一橋大学.ac.jp (あっと → @、一橋大学 → hit-u) 連絡 News 2024年4月 科学研究費助成金 基盤研究(B)「補間誤差解析を超えて切り拓く有限要素法と精度保証付き数値計算の新たなる地平」が採択されました(研究期間2024年度~2027年度、直接経費計1430万円)。 研究代表者:小林健太(一橋大学)、研究分担者:土屋卓也(大阪大学)、渡部善隆(九州大学)、劉雪峰(東京女子大学)、高安亮紀(筑波大学) 2020年4月 科学研究費助成金 基盤研究(B)「新たな段階に入った有限要素法基盤の精度保証付き数値計算の進展」が採択されました(研究期間2020年度~

    userhiro
    userhiro 2016/09/25
    帰無仮説の一部を最初から確実に否定できる場合のみ片側検定を用いるという立場もあれば、交通事故件数の例のように、上回っているかどうかだけに興味があれば片側検定を用いてよい、という立場もある
  • http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/ryougawa_katagawa.htm

    <<目次へ 片側検定と両側検定のちがい いろいろな参考書をみると「有意水準0.05で片側検定しなさい」とか、あるいは巻末の分布表のところで「両側検定のにおける棄却の限界値」などという表現を見かけるでしょう。ところが実際に「片側検定と両側検定ってなんスか?」と思っている人もそう少なくはないはずです。それは「この場合はこの部分を見ればよいのだ」とマニュアル通りの方法で検定を行っているために起こる現象で、初段階ではむしろ当然のことでもあります。 しかしながら、最初はそのようなマニュアル通りの"サル真似"でも良いでしょうが、ある程度学習が進んでくるといつまでも首をかしげているようでは格好悪いです。というわけで、ここでは片側検定と両側検定の違いをしっかりと区別できるようになりましょう。 帰無仮説は1つ、対立仮説は・・・ 帰無仮説とは"棄却することを前提として立てる仮説"でしたがこの仮説は1つしかあ

    userhiro
    userhiro 2016/09/25
    片側検定と両側検定のちがい
  • 有意水準の意味や定義 わかりやすく解説 Weblio辞書

    統計的仮説検定を行う場合に,帰無仮説を棄却するかどうかを判定する基準。5% あるいは 1% がよく使用される。有意水準5% で検定を行うということは,第 1 種の過誤をおかす危険率が 5% であることを意味する。すなわち,同様の調査・検定を行うと,20 回に 1 回は得られた結論が誤っていることを表す。「有意水準 α で検定すると有意な差が認められた」ということと,「危険率 α のもとで有意な差があるといえる」は同じような意味で使用される。 詳しくは,検定の概念を参照のこと。 作業仮説から帰無仮説と対立仮説が決められ,調査デザインに合った検定法が選択されると,次に決定すべきものは,有意水準である。 調査データに基づいて,帰無仮説が正しいという条件のもとで,ある検定統計量が計算されると,その統計量の分布は理論的に求められる。 パラメトリックな手法においては,例えば t 分布,χ2 分布,F

    userhiro
    userhiro 2016/09/25
    “有意水準5% で検定を行うということは,第 1 種の過誤をおかす危険率が 5% であることを意味する”
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
    userhiro
    userhiro 2016/09/25
    全てをp値のせいにするな、納得のいくエビデンスを求めよ。「ポストp < 0.05時代」
  • 統計学の補足

    <<トップページへ 統計学の補足 ◆ PDF版(PDFファイルです) ∑の計算 積分の計算[1] 積分の計算[2] 積分の計算[3] 積分の計算[4] 正規分布について-計算基偏- 正規分布について-計算応用編- 行列の足し算・引き算・掛け算 行列の種類 ベクトルの足し算・引き算・掛け算 ベクトルの種類 最小自乗法 相関行列 確率論入門[1] 「確率ってなぁに?」 確率論入門[2] 「試行(trial)と結果の数(number of outcome)」 確率論入門[3] 「独立であること 排反であること」 確率論入門[4] 「実は色々ある確率の種類」 確率論入門[5] 「くせ者は色のついたボールです」 確率論入門[6] 「2つの出来事を考える」 ◆ HTML版(普通のwebページです)

    userhiro
    userhiro 2016/09/25
    (心理)統計学の参考書
  • Effective Pythonを読んで心に響いたこと - MyEnigma

    Effective PythonPythonプログラムを改良する59項目posted with カエレバBrett Slatkin オライリージャパン 2016-01-23 Amazonで探す楽天市場で探すYahooショッピングで探す 目次 目次 はじめに Pythonのランタイムの種類 プライベート属性はアンダーバーを2つ先頭におく リストや文字列の空判定にlenなどは使わない mapやfilterよりもリスト内包表記を使う rangeよりはenumarateを使う オプションのキーワード引数は、位置ではなくキーワードで与えるとコードが読みやすい どんなクラスオブジェクトでも__dict__ですべてのフィールド辞書にアクセスできる Pythonコードのプロファイルを取るにはcProfileを使うと便利 参考資料 MyEnigma Supporters はじめに 以前、C++の名著Ef

    Effective Pythonを読んで心に響いたこと - MyEnigma
  • ロジスティック回分析とは?具体例で分かりやすく解説 :: 【公式】株式会社アイスタット|統計分析研究所

    すでに確認されている「不健康」のグループと「健康」のグループそれぞれで、1日の喫煙数と1ヵ月間の飲酒日数を調べました。下記に9人の調査結果を示しました。 下記データについて不健康有無と調査項目との関係を調べ,不健康であるかどうかを判別するモデル式を作ります。このモデル式を用い、1日の喫煙数が25、1ヵ月間の飲酒日数が15日であるWさんの不健康有無を判別します。

  • Microsoft PowerPoint - 2006-06.ppt

    userhiro
    userhiro 2016/09/25
    アルゴリズムの比較、決定木について
  • atpages.jp - このウェブサイトは販売用です! - atpages リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

    userhiro
    userhiro 2016/09/25
    決定木、CHAIDの説明
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 決定木による学習 | Code Craft House

    決定木による機械学習 決定木は、根から順番に条件分岐を辿っていくことで結果を返します。特に分類問題で用いられる場合には「分類木」と呼ばれます。ここでは、与えられたデータを元に、自動的に分類木を構成する方法について説明します。機械学習の手法の中でも、学習結果を人間が解釈し易いことが特徴で、データの特徴を掴む場合によく用いられるようです。(「花びらの長さがθ以下ならチューリップ」などが分かれば、それだけで面白いですよね!)今回はアルゴリズムについて説明をした後、pythonでの実装例を紹介したいと思います。 CARTによる分類木の構築 CARTとはClassification And Regression Treesの略で、2進木の決定木の学習アルゴリズムです。決定木の学習アルゴリズムは他にもいくつか種類が有りますが、ここではCARTに絞って動作を見ていきたいと思います。 動作の流れ まず最初

    決定木による学習 | Code Craft House
    userhiro
    userhiro 2016/09/25
    決定木の概念は図を用いて分かりやすい。詳細は・・
  • 決定木の学習

    トップページ→研究分野と周辺→記号論理→不確実な推論→ 決定木は木構造をした決定を行うためのグラフで、与えられたデータから適切な決定木を作成する事を、決定木の学習と呼ぶ。 決定木の学習方法には様々な種類があるが、最も単純な方法の一つであるID3アルゴリズムを紹介する。 簡単な決定木の具体例 「天気」「気温」等の天候を示す属性の値の組によって、或る事を「する」「しない」を決定する例がよく説明に使われる。 図は、「天気」「風速」「湿度」の属性値の組によって、花見に「行った」(Yes)、「行かなかった」(No)の事例データが5つあるとした場合になる。 5つのデータに基づき、まず「天気」の質問をして、「晴れ」なら「風速」の質問をするという具合に枝分かれしていく。答えが全部Yes、又は全部Noになれば、そこで打ち切る。 この例では「天気」を最初の質問にしているが、「風速」を持って来てもよい。様々な質

    userhiro
    userhiro 2016/09/25
    決定木:ID3アルゴリズムの考え方
  • 多重共線性ってなんだったんだっけ?+正則化の話。 | 分析のおはなし。

    アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 多重共線性について色々調べ物をしたのでちょっとまとめておきます。 結構マルチコマルチコ言われてるんですけど、何がそんな問題なんだっけ?起きちゃったときは何しちゃだめで、何していいんだっけ?というのをちゃんとまとめておきたかったので良い機会化と。 基的に重回帰分析での話がベースです。 1. 多重共線性とは。 説明変数同士が強く相関してしまっているケースで発生する問題の事です。 例えば以下の様なモデルを推定したいとします。 y = a + b*x_1 + c*x_2 + d*x_3 + u この時cor(x_2, x_3)が高すぎると、多重共線性の問題が発生します。 結果x_2,x_3のパラメーターであるcとdの標準誤差が大きくなり、cとdの推定結果の正負も大きさも信頼のできないもの

    多重共線性ってなんだったんだっけ?+正則化の話。 | 分析のおはなし。
    userhiro
    userhiro 2016/09/25
    独立変数の相関が強い場合に、機械学習では正則化によりその問題を解消すると。阪大の研究結果も参照のこと(要約で小さい値をタスとか書いてあるのがそれ)
  • Excelで最小二乗法を行う

    Excelで最小二乗法を行う方法の紹介です。 スポンサーリンク 最小二乗法とは 最小二乗法とは、測定値を何らかの直線や曲線の式で近似して表したいときに使う方法です。 最小自乗法と表記することもあります。 詳しい理論は、たとえばWikipediaなどに掲載されていますが、実験レポートを作成する際には、 特に理論を知らなくても使えてしまいます。 グラフに最小二乗近似式を表示する まずこのように、Excelでプロットをします。 プロットの点を選択してから、右クリックし、現れたメニューから [近似曲線の追加]を選びます。 設定画面で、曲線の種類を選びます。直線で近似するなら、「線形近似」を選びます。 「グラフに数式を表示する」にはチェックを入れておきます。 「グラフにR-2乗値を表示する」にも必要ならチェックを入れます グラフに近似曲線と、数式が追加されます。 R-2乗値は、測定値がどれほど近似曲

    userhiro
    userhiro 2016/09/25
    分析ツール
  • 回帰分析とは|市場調査・アンケート調査のマクロミル

    回帰分析のモデルと基式 1つ(単回帰分析)または複数(重回帰分析)の説明変数と、1つの目的変数の関係を求め、説明変数から目的変数を推定します。 回帰分析の例 例としてある店の顧客に対する販売実績と、顧客の属性の関係を分析します。目的変数として、ある年の各顧客の購入額をとります。説明変数として、顧客の属性(年齢、性別、家族人数、年収など)を用いることとします。すなわち、 (購入額)= a ×(年齢)+ b ×(性別)+ c ×(家族人数)+ d ×(年収)+(誤差) という式において、a,b,c,d (これを偏回帰係数といいます)の値と、誤差項の値を求めます。求め方は、最小二乗法の原理が用いられます、ここでは省略します。その結果、求められた式、例えば、 (購入額)=30×(年齢)+300×(性別)+450×(家族人数)+0.001×(年収)+5000 などという関係式が得られるのです。

    userhiro
    userhiro 2016/09/25
    説明変数の選択
  • 相関

    相 関 2つのデータ(変数)が、かなりの程度の規則性をもって、同時に変化していく性質を相関という。 また、片方の変数の値が決まれば、もう一方の変数の値が確定するわけではないが、関連性が認められるとき「相関関係がある」という。 相関関係があるというのは、直ちにその2つの変数間に因果関係があるというのではない! 「問題の糸口がここにあるかもしれない」ということを示しているのにすぎない。 相関は、量的データ間で行うことが多いが、質的データ間や質的データと量的データの組み合わせでも行える。 相関関係の程度を表す数値に、扱うデータ(変数)の種類によって相関係数、順位相関係数、独立係数、相関比がある。 これらの係数はー1から+1までの値をとり、±1に近いほど相関関係が強くなり、0に近づくと弱くなる。 +1に近いと正の相関で、2つのデータ(変数)が似たような変化をしていることを示している。 ー

    userhiro
    userhiro 2016/09/25
    量的データと質的データの相関の求め方
  • さまざまな確率分布 probability distributions - 数理的思考 - 中川雅央 【知と情報の科学】

     さまざまな確率分布 probability distributions - 数理的思考 - 中川雅央 【知と情報の科学】 ■ さまざまな確率分布 (probability distributions) 観測される現象は,確率的に変動するものが多いと考えられます.その観測されたデータを説明する統計モデルに,どの確率分布を使えばうまく説明できるでしょうか. 正規分布や二項分布など,確率分布の種類は数多く,いろいろなカタチ(分布形)があります.確率分布の当てはめを考えるには,そのカタチ(分布形)を知ることが重要です.各確率分布の母数(パラメータ)によってそのカタチ(分布形)が決まります.確率変数には離散型と連続型があり,その範囲もさまざまです. このページは,代表的な確率分布について,それらを比較・検討しやすいように母数(パラメータ)やグラフ等を一覧表にまとめたものです. 1. 離散型確率分

    userhiro
    userhiro 2016/09/25
    確率分布について、図化されていて分かりやすい
  • 「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python

    「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 相関係数(そうかんけいすう、英: correlation coefficient)とは、2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。 ここでは、相関ではなく、相関係数という言葉を用いていますね。「相関」というのは、2つ以上のもとがあるときに、それら

    「相関係数」ってなんですか? -意味と利点と欠点をわかりやすく- - Data Science by R and Python
    userhiro
    userhiro 2016/09/25
    「ピアソン相関」の考え方は「線形関係」を発見するものであり、残念ながら「非線形」な関係には効果を持ちません
  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
    userhiro
    userhiro 2016/09/25
    偶然の産物・因果が逆・交絡要因・選択バイアス(条件付けされたデータ)