地域経済分析システム(RESAS:リーサス)は、地方自治体の様々な取り組みを情報面から支援するために、内閣官房デジタル田園都市国家構想実現会議事務局が提供する、産業構造や人口動態、人の流れなどの官民ビッグデータを集約し、可視化するシステムです。
(1)C19: =0.5と仮に置きます (2)C20: この段階では未知数のままとします。 (3)C21: 同じくこの段階では未知数のままとします。 (4)C2: 残差を求めます。 =B2-$C$20/(1+$C$21*(exp(-$C$19*A2)) つまり y - a/(1+b*(exp(-cx))です。以下C16まで式コピーします。この段階での数値には意味はありません。 (5)C17: 残差の平方和を求めます。 =SUMSQ(C2:C16)です。 この段階での数値には意味はありません。 (6)以上で準備が完了しました。「ソルバー」を用いて,残差平方和についての最小2乗法を実行し,係数a,bを求めます。ソルバーの使い方はQ71を参考にしてください。[ツール]-[ソルバー]から,「目的セル」はC17,「目標値」は最小,「変化させるセル」は$C$20,$C$21,「制約条件」は大
確率分布(確率密度関数) † 確率分布の特性と分類に関して、さまざまな確率分布(滋賀大中川先生) に総合的な解説があります。 以下、Statistics Toolbox の関数を使用します。 参考:Statistics Toolbox でサポートされている確率分布 Rでも同じことができるはずです。R Note/統計/確率分布 を参照して下さい。 ↑ 連続変数(Continuous variable) † 連続的に変化する値の出現頻度を扱う分布。 【引用】 (略)棒が倒れる方向 X は、0 から 360°の間の任意の値を取ることができます。このような分布を連続型分布といいます。(略)ここで注意してもらいたいのは、離散型分布の確率関数とは異なり、確率密度関数 f(x) は、X が 値 x を取るときの確率を表しているわけではないことです。(略)なぜなら、倒れたときの角度がある特定の値に完全に一
● ロジスティック回帰とは みなさんこんにちは。 さて、今日はロジスティック回帰というものを取り上げます。 前回の項目で回帰、というものをやりました。 単回帰や重回帰によってデータの変化の傾向を見る、そういうものでしたよね。 しかし、実際の動物データを扱う場合、データによっては一つ問題点があります。 それは、「データに一定の上限値が存在する。」ということです。 少し想像してみましょう。 ブタを飼育し、その体重を計測していた場合、ブタの体重は無制限に増加する事は考えられませんよね。 もしくは自分の身長や体重を思い浮かべてみるともっと分かりやすいでしょうか。 このような一定の上限値が存在するデータの場合、予測されるグラフは以下のようになります。 このような、S字状の曲線を描いたグラフをロジスティック(成長)曲線と言います。 このように定めたロジスティック曲線にデータを当て
データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の
実験はギャンブルのようなもので、 どんな結果が出るかはわからないが、 実験計画を立てる。 「2群に差がない!」という帰無仮説を立てる。 群間のサンプルの選択は公平にしなければならないが、 勝率が高くなるような実験計画をデザインも必要である。 生物実験では、物理科学実験とは異なり、 得られるデータは必然的にばらつきを伴う。 測定者による誤差 ---実験技術の向上に伴い、 データの信頼度は上がる! 測定装置、あるいは測定方法による誤差 測定されるものの性質による個体差
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
Q1:相関と回帰の違いは何か?2つの変数の比例関係を見る点では相関も回帰分析も変わりないように思われるが…。 A1:2変数がどれくらい散らばっているかを表すのが相関[係数]である(図1a)。一方の変数から他方の変数を予測するために最も都合の良い直線を引くのが回帰[分析]である(図1b)。これらの目的は根本的に異なり,Altman1)も両者を同時に求めることはあり得ないと述べている。従って,事前に「比例関係」とは何かを明確に定義づけて使い分けるのがポイントとなろう。 同一のデータであっても,相関係数と回帰係数が大きく異なることは意外に多い。1つの例を挙げよう。図2aは相関係数と回帰係数が,ともに1の直線関係にある例である。さて図2bは図2aと比べて回帰式が変化せず,相関係数のみが低くなった例である。回帰係数はyに対し,x方向からみて誤差が最小となるような直線を引くから1になるのである。もちろ
〒615-0882 京都市右京区西京極葛野町38 Copyright © Kyoto Koka Women's University All Right Reserved.
ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。 超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。 物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。 JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。 自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる
最尤推定 (さいゆうすいてい): 「最ももっともらしい」パラメーターの推定 「尤」の音読みは「ゆう」,訓読みは「もっともらしい (尤もらしい)」です. 尤度とは,ある確率論的モデルを仮定しているときに,その観測データが得られる確率 (あるいは確率密度) 簡単には,ある観測データに (あるパラメーターのもとで) 確率論的モデルが「どれぐらいあてはまっているか」を確率で表す尺度です 最尤推定とは,尤度を「手持ちの観測データのもとで,あるパラメーター値が得られる確率」とみなして (つまり尤度が未知パラメーターの関数とみなして),尤度を最大化するようなパラメーター値を探索する推定方法です 最尤推定法を使う手順は 尤度方程式を作る: 確率論的モデルを作り (データがどういう確率分布に従うか,確率分布のパラメーターの関数型はどうなってるか),それを数式として定義する……これが尤度方程式である 尤度最大
アカデミアでもビジネスでも統計解析のニーズは高くて、 データを分析して欲しいというような依頼は結構くる。 しかし、分析の対価としてどこまで給料をもらうべきなのか、 というのはなかなか難しい問題だ。 完全にビジネスとして外注して、博士レベルの統計屋に 分析をさせると、単価は1時間で100ドル前後のようだ。 以前に、コンサルティング会社が時給75ドルでそういった求人を 出していたから、マージンなどを考えれば大体そんなものなのだろう。 継続的に分析案件が発生するのであれば、 常勤で統計屋を雇えばもっと安く済む。 私も、大学院生の時は、医学部でデータの分析をして、 生活費や給料、健康保険料を払ってもらっていた。 一番厄介なのは、依頼者が案件をあくまで「共同研究」だと考えている場合である。 もちろん雑誌や学会等に投稿することになれば、 分析者として共著者に名前を入れてもらうことになるが、 それが統計
デルタパラメータとは? † 音声認識の際、動的な特徴をあらわす指標として使われる。 初出は Furui, 1986.*1 意義 中川, 2000.*2 より引用 スペクトルの時間方向の動的変化の特徴は音声認識にとって重要なパラメータであり、これを回帰モデルでモデル化し、1次回帰係数(Δケプストラム)、2次回帰係数(ΔΔケプストラム)と呼ばれ広く用いられている(隣接スペクトルの差分もΔケプストラムと呼ばれており、同様に効果がある) 和田ら, 2002.*3 より引用 デルタケプストラムは、ケプストラムの時間変化の微分を差分ベクトルにより近似した動的特徴量である。(略) LPCケプストラムを取り除きデルタケプストラムのみを特徴量として用いることで耐雑音性が改善されると考えられる。しかしながらデルタケプストラムのみを特徴量とするには母音などの定常に近い音声の認識に不安を残す。 計算方法 HTK
この教材では,対応がないときのt検定について,上記の学説の優劣を判断していません.読者に判断してもらうための材料を提供しているレベルですのでよろしく.(2群の要素数が僅差であるような場合を除けば,多くの場合にWelch検定の方が自由度がかなり小さくなるので,レポートを見れば,どちらのt検定を用いたのかは分かると言われています.) 【平均の差の検定:要約】 ◎ 前提:以下において母集団は正規分布に従うとする. 幾つかのグループの「平均の差」が偶然的な誤差の範囲にあるものかどうかを判断したいとき,データの個数が少ないときは偶然的な誤差の範囲も大きくなるが,データの個数が多くなると平均の差が大きな値となることはめったにない. 同一の母集団からの標本と見なしたときに2つのグループの平均の差が両側5%の確率の範囲に入るようなことはめったになく,このような場合は平均に有意差があるとして異なる母集団から
〒615-0882 京都市右京区西京極葛野町38 Copyright © Kyoto Koka Women's University All Right Reserved.
図2のような、誤差を含むデータ(X,Y)を計測したとします。 近似関数をつくり、計測点以外のデータを取り出したい場合、最小2乗法がよく使われます。 図2 計測点列の例題 一般的には最小2乗法の近似関数はn次関数にします。ここでは、3次関数で近似しようと思います。 近似関数を f(X) = aX3 + bX2 + cX + d ・・・・・ (1) とおきます。 次数が高いほど、点列に近い近似関数がつくれます。しかし、次数が高すぎると誤差を拾う可能性があり、 ほどほどの次数にする必要があります。 最小2乗法は点列の近辺を通るなめらかな近似関数をつくります。そのため、誤差を含むデータの近似方法 としては良い方法です。 計測点列を絶対に通る近似関数を作りたい場合は、ラグランジュの補間法、スプラインの補間法等をつかいます。 最小2乗法では、n次関数以外の関数も適応できます。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く