ブックマーク / hidekatsu-izuno.hatenablog.com (7)

  • 統計学とは何か、そしてベイズ統計学の話 - hidekatsu-izuno 日々の記録

    細々と統計学を調べ続けているが、最近ようやく統計学というものが何なのか、おぼろげながらわかるようになってきた(なお、統計学ができるようになってきたわけではない) 統計学を知る前の自分と今の自分をくらべたとき、間違いなく違うのは統計学に対する信頼だろう。以前は、統計学は数学の一分野であり、正しい分析手法を使えば真の答えが得られるものだと思っていた。しかし、実際には統計学者ジョージ・ボックスが言ったとされる「すべての(統計)モデルは間違っている、だが中には役立つものもある)」という言葉の方が実態に近い。 統計学は基的に「不可能なことを可能にする(不良設定問題を扱う)」学問だ。例えば、1、3、5 という数字の列から何が言えるだろうか。確実なことは3つの実数値が観測された、ということだけで、それ以上のことは想像するしかない。奇数列かもしれないし、乱数から3つの値を取得した際に偶然それっぽい数字が

    統計学とは何か、そしてベイズ統計学の話 - hidekatsu-izuno 日々の記録
  • なぜ統計学には主義が必要なのか - hidekatsu-izuno 日々の記録

    前回「ベイズ統計学に関する議論を整理する」では、できるだけ中立的な視点で書くことに注力し、伊津野なりの結論については特に書かなかった。今回のエントリでは、様々な見解や調べた結果を元に私見を書く。 もちろん、伊津野は専門家ではなく、情報や理解が不足する部分については想像で補ったため「それはおかしい」と感じられる点もあるだろう。そのような記述を見つけたら、単に批判を書くのではなく、なぜ問題だと思うのか、自身のブログやTwitterなどで他の人間にも理解できるように論点を明確に書くようにしてほしい。うんこの投げ合いはうんざりだ。それに、コメント欄に批判や反論を書かれても、伊津野の理解力では適切な回答ができるとは思えない。広い範囲に意見を投げかけた方がより専門的な回答が得られ生産的だろう。*1 前置きが長くなったので論に移ろう。 まず先に結論を述べる。現在、ベイズ統計学は「(頻度主義とは異なる)

    なぜ統計学には主義が必要なのか - hidekatsu-izuno 日々の記録
  • 「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録

    以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。 改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。 確率統計-機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。 例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ

    「確率統計-機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録
  • 最強の圧縮アルゴリズム ZStandard を試す - hidekatsu-izuno 日々の記録

    以前「続・圧縮アルゴリズム(実測)」というエントリにて、各種圧縮コマンドの特徴を調べたが、このたび facebook より最強と名高い ZStandard がリリースされたので、追加で実測してみた。 以下はその結果。圧縮率はほぼ GZip 同等にも関わらず、圧縮時間は1/5、伸張時間も1/2、使用メモリ量は増えるもののさほどでもない。たしかに、これはなかなかの優れもの。高圧縮モードで使えば、bzip2並の圧縮率になるというのも良い。試していないけれども、あらかじめ辞書を作っておくと、圧縮率を更に上げることもできるようだ(どういう教育データを用意すればいいのかよくわからなかった)。 圧縮プログラム圧縮後 サイズ圧縮時間圧縮時 最大メモリ量伸張時間伸長時 最大メモリ量 lzip(best) 0.69 31.6 164.17 2.52 17.45 xz 0.69 23.87 106.96 2.4

    最強の圧縮アルゴリズム ZStandard を試す - hidekatsu-izuno 日々の記録
  • 工数見積りの海を彷徨う - hidekatsu-izuno 日々の記録

    [2018/07/01 追記] 過去に話題になったこともあり、このページに辿り着く方が多いようなのだが、係数導出の手法については継続的に改善を行っている。現時点では、「工数見積りの海を彷徨う・征服」というエントリに記載した「分位点回帰」を使うのがベストではと考えている。50%分位点が中央値にあたるため係数も安定しており、現在の見積りが過去のプロジェクトと比較してどのくらいの工数なのかが明確でわかりやすい。合わせて参考にしていただきたい。 工数見積りが難しいのはわかっているのだが、そうは言っても根拠は欲しい。この業界に入ってからずっと考え続けているのだが、やはり難しい。 この手の工数、工期という話題の時、役に立つのは次の資料だ。 IPA ソフトウェア開発データ白書 JUAS ソフトウェアメトリックス調査 素晴らしいことにどちらも PDF 版は無料で配布されているので、ダウンロードして見ること

    工数見積りの海を彷徨う - hidekatsu-izuno 日々の記録
  • 日本の労働生産性はなぜ低いのか(おかわり) - hidekatsu-izuno 日々の記録

    以前、「日の労働生産性はなぜ低いのか」というエントリを書いた。 先日、Twitter にて 日の統計データの分析について積極的に発表されている小川製作所さんとやり取りさせていただいた中で、新たに気付かされたことがあった。 まず、下記のツィートのグラフを見てもらいたい。 思いがけずアイディアをいただいたので、労働生産性(時間あたり付加価値)の購買力平価換算値のグラフを作ってみました。 時間あたりだとドイツ、フランス、イタリア、イギリスの水準がかなり高くなります。 日アメリカドイツ、フランスの半分強です。 pic.twitter.com/XHuRnNhGdF — 小川製作所 (@OgawaSeisakusho) 2023年5月2日 前述のエントリで書いたように労働生産性を考える場合には購買力平価換算ひとり当たりGDPを見るのが一般的であるが、日においては少子高齢化が進みすぎ大きく歪

    日本の労働生産性はなぜ低いのか(おかわり) - hidekatsu-izuno 日々の記録
  • 日本の労働生産性はなぜ低いのか(メモ) - hidekatsu-izuno 日々の記録

    前々から気になっている話題ではあるのだが、いくつも文献を見るうちに新たな気付きがあったのでメモ代わりに書いておく。 日のGDPは世界第三位だということはよく知られているが、それが日の人口の多さに起因していることはあまり知られていない。4位のドイツは 8,300 万人、5位のイギリスは 6,700 万人程度しかいない。中国も豊かになったとはいえ、まだまだ貧しい地域に住む人も多く、世界第2位のGDPも14億の人口あっての順位だ。(なお、この順位は名目でも実質でも変わらない) 一般に国の豊かさは人口で割ったひとり当たりGDPを見るが、この指標を使う場合、物価変動や為替レート変動の影響を除去するため購買力平価換算するのが一般的となっている。この購買力平価換算ひとり当たりGDPで見た場合、日の順位は大きく下がる。先進7か国の中で最下位であるだけではなく、2009年には台湾、2018年には韓国

    日本の労働生産性はなぜ低いのか(メモ) - hidekatsu-izuno 日々の記録
  • 1