タグ

統計に関するtatejimaruのブックマーク (12)

  • 喜びの多いプログラミング言語はObjective-CとPHPと判明

    いやいやもっと楽しい言語あるでしょ?と思った方にとっても興味深い調査結果がExploring Expressions of Emotions in GitHub Commit Messages(GitHub上のコミットメッセージの感情表現の調査)として公開されていました。記事の作者はベルリンのRamiro Gómezさんで、自然言語とプログラミング言語の双方に関心のある彼はGitHubが公開した統計情報からさまざまな感情表現をコミットメッセージから探して分析するという調査を行いました。これによりanger(怒り), joy(喜び), amusement(楽しみ) surprise(驚き)の表現が多く使われているプログラミング言語のランキングを生成して公開しています。 怒りの言語はVimL、C、Shell 怒りのランキングではangry(腹を立てる)、annoying(いらいらする)、cra

    喜びの多いプログラミング言語はObjective-CとPHPと判明
  • 「日本人は働き過ぎ」って本当? 調べてみた。 - デマこい!

    豊かさとは何か? 科学ジャーナリストのマット・リドレーは、豊かさとはより単純な生産活動で、より多様な消費活動ができるようになることだと定義した[*1]。「よりわずかな生産活動」と言い換えてもいいだろう。旧石器時代の人々は、森を一日中歩き回らなければ必要充分なカロリーを得られなかった。しかし現在ではアルバイト1時間分のカネで、カロリー過多な事を取れる。これが豊かになったということだ。 これほど明快な「豊かさ」の定義を、私は他に知らない。この定義の強みは、時代や地域を超えて、社会の豊かさを比較検討できることだ。 たとえば文化や芸術は、かつては金持ちの特権だった。パトロンに飼われなければ、芸術家は才能を開花させられなかった。ところが18世紀末から産業革命が始まり、工場労働者を育てる目的で学校教育が整備された。19世紀後半にはイギリスの識字率は80%に達し[*2]、読書が庶民の娯楽になった。『二

    「日本人は働き過ぎ」って本当? 調べてみた。 - デマこい!
    tatejimaru
    tatejimaru 2016/01/10
    こういうグラフの列挙って説得力ある。それでいてわかりやすい。
  • ソルバーを使った最小二乗法/Excel/データ分析: haku1569 Excel でらくらく データ分析!

    最小二乗法(Least squares)とは、実際の測定で得られたデータ等を一次関数や二次関数、対数曲線などの関数を用いて近似する際、実際のデータとの差の二乗(残差の二乗)の総和が最小になる様に関数の係数を想定する方法です。手計算で行うと偏微分方程式等を解かなければなりませんが、Excelの"ソルバー"を用いると瞬時に繰り返し計算を行って係数の推定が行えます。 直線で近似する場合 まずサンプルの元データを用意します。 この様なX,Yのデータから最小二乗法を用いて直線で近似してみます。解りやすいようにグラフでも表示してみます。 このデータは y=xのデータ(直線)から、データを適当にばらつかせたものです。 では直線の式 f(x)=ax+b の式を当てはめてみます。元々y=x ですから、a=1、b=0としてみます。 列Cに f(x)=ax+b (a=1,B=0) のデータを計算させています。計

    ソルバーを使った最小二乗法/Excel/データ分析: haku1569 Excel でらくらく データ分析!
  • Pythonで棒グラフ - akiyoko blog

    今回は、NumPy と matplotlibライブラリで棒グラフを描いてみます。 シチュエーションとしては、あるテストの国ごとの平均点を棒グラフにしてみたいと思います。で、Excel上に、スコアのデータと国籍のデータが下方向に並んでいるとします。 USA 42 Denmark 42 Japan 40 Denmark 38 Italy 38 ・ ・ 棒グラフ 棒グラフを描くには、matplotlib.axes.Axesクラスの bar() を使います。 bar(left, height, width=0.8, bottom=0, **kwargs) left: それぞれの棒のX座標の位置(配列で指定) height: それぞれの棒の高さ(配列で指定) width: 棒の幅 color: 棒の色 yerr: ひげの長さ シンプルな棒グラフはこんな感じです。 from matplotlib im

    Pythonで棒グラフ - akiyoko blog
  • Excelによるエラーバー(誤差範囲)付き棒グラフの作り方 | ブログ | 統計WEB

    Excelを用いてエラーバー(誤差範囲)付き棒グラフを作成する方法を紹介します。 対応Excelバージョン この手順は、Excel 2016・2019・2021、office 365に対応しています。 概要 論文などで棒グラフにエラーバーを付け加えたグラフをよく見かけます。このグラフは、棒グラフで平均値を、エラーバーで標準誤差や標準偏差、平均値の信頼区間などを表します。ここでは、平均値に標準誤差のエラーバーを付けた下図のようなグラフを作成します。手順は1から12まであります。

    Excelによるエラーバー(誤差範囲)付き棒グラフの作り方 | ブログ | 統計WEB
  • エラーバーの意味と正しい使い方

    エラーバー error bar とは,右のような棒グラフに付いているバーのことで,一般に以下のものを示すことが多い(1)。 データ区間 range 信頼区間 confidence intervals 標準誤差 standard error (SE) 標準偏差 standard deviation (SD) 折れ線グラフや散布図にもつくことがある。なんとなく,エラーバーが短いほうがバラツキの少ない良いデータのように見える。 しかし,異なるエラーバーは異なる情報を伝えるため,その意味を正確に理解するとともに,エラーバーが何を表しているかを図の説明にはっきりと書くことが重要である。 このページでは,それぞれのエラーバーの特徴についてまとめるとともに,文献 1 で提唱されているエラーバーに関する 8 つのルールなどを紹介する。

  • 相関係数の大小は相関の有無とは全く関係ない件について。

    話題になった日経のトンデモグラフに対する突っ込みで、相関係数には言及してもp値、有意水準についての言及は少なく、勘違いしている人が多いのではないか?と感じたのでブラッシュアップも兼ねてまとめました。

    相関係数の大小は相関の有無とは全く関係ない件について。
  • 確率分布 Navi - NtRand

    確率分布 Navi 星の数ほどある確率分布から、あなたの目的にピッタリの分布がきっと見つかる! (データの特徴から最適な分布を見つける⇒確率分布の世界) が付いている分布は NtRand3 に乱数生成関数を始めとした関連関数が用意されています。その他の分布も、NtRand3 の関数を使って乱数を生成する方法を解説しています。

  • 対数正規分布の仕組み - 小人さんの妄想

    年収(所得)の分布は、対数正規分布という形に従うと言われています。 * 貯金年収の形 >> d:id:rikunora:20090622 出典: 厚生労働省 -- 所得の分布状況 >>http://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa08/2-2.html 対数正規分布とは、その名の通り正規分布に対数を付けたものです。 (確率変数の対数値が正規分布をするような統計分布を対数正規分布という。) 対数正規分布の形は、上の所得の分布のように左右非対称で、 左側(高所得側)に長い裾野が広がっています。 なぜこのような形になっているのか。いくつかの説明の仕方があると思うのですが、 今回は1つの単純なモデルで確認してみました。 ・最初に1000人の新入社員がいたとします。 入社直後、全員の給料には少しだけばらつきがありますが、ほぼ同額です。

    対数正規分布の仕組み - 小人さんの妄想
  • (おまけ) 早わかり 主成分分析 

    第4章 文に戻る 第2章 主成分分析の使用事例へ (おまけ) 早わかり 主成分分析 主成分分析は英語では PCA: Principal Components Analysis といいます。 主成分分析だけだと、それは主成分スコアの計算方法です。 一般に言葉では次のように説明されます。すべて同じことの説明です。 説明変量の圧縮 多変数から少数の総合的指標にする 多変数から少数の合成変数にする データの低次元化 データの圧縮または縮約 情報の簡素化・要約 現在では主成分分析はその計算結果につづけて他の手法に使うのがふつうです。こうしたその他の手法まで含めて主成分分析としてあつかわれます。 <主成分分析で行うこと> これまで 主成分スコアの計算 これから 多変数から複数のメカニズムの分離(主成分スコアの計算と同じ。利用目的が異なる) メカニズム提示(因子負荷量と相関方向) 主成分回帰(単純な曲

  • 主成分分析とは|市場調査・アンケート調査のマクロミル

    主成分分析のモデルと基式 主成分分析とは、多変量データを統合し、新たな総合指標を作り出すための手法といえます。多くの変数に重み(ウェイト)をつけて少数の合成変数を作るのが主成分分析です。重みのつけ方は、合成変数ができるだけ多く元の変数の情報量を含むようにします。できるだけ多くの情報をもつ合成変数(主成分)を順次作っていきます。 主成分分析の手順 合成変数ができるだけ多くの情報量を持つようにするため、データの散らばり具合(分散)に着目します。分散=情報量といえるからです。 平面で示すためにデータが2次元(2変量)の場合で考えてみましょう。 下図のようなデータがあった時、データの分散が最も大きくなる方向に軸をとり、これを第1主成分とします。第1主成分だけでは元のデータが持っていた情報をすべて表すことは不可能です。そこで、次に分散が大きくなる方向に軸を取り、これを第2主成分とします。第2主

  • 統計解析 & R言語超初心者入門資料まとめ

    興味を持ち続けていた統計解析や、R言語の勉強をはじめました! まだまだ初歩の初歩ですが、この記事がいつか偉大な一歩になれるように頑張っていく所存ですw まずは、R言語や統計解析に関する入門記事や、モチベーションがアップしそうな記事をまとめていきます! (02/23 11:00) 初学者の人にお勧めな資料にフォーカスしてまとめ直し 🍮 [スライド] 統計学入門 統計学の全体像をつかむのに最適なスライドです。初歩…とはちょっと呼べないくらい内容が深いです! 🏈 [スライド] 初めての「R」 統計解析を始めるときにWindowsな方も、Macな方もとっつきやすのが『R』です。このRを完全初心者をターゲットに説明をしていただけている資料です。超わかりやすいです! 🍄 [デスクトップアプリケーション] R用のIDE: RStudioRStudio RStudioはR言語用のIDEです。Wind

    統計解析 & R言語超初心者入門資料まとめ
  • 1