techtech0521のブックマーク - はてなブックマーク

統計学とは何か、そしてベイズ統計学の話 - hidekatsu-izuno 日々の記録

細々と統計学を調べ続けているが、最近ようやく統計学というものが何なのか、おぼろげながらわかるようになってきた（なお、統計学ができるようになってきたわけではない）統計学を知る前の自分と今の自分をくらべたとき、間違いなく違うのは統計学に対する信頼だろう。以前は、統計学は数学の一分野であり、正しい分析手法を使えば真の答えが得られるものだと思っていた。しかし、実際には統計学者ジョージ・ボックスが言ったとされる「すべての（統計）モデルは間違っている、だが中には役立つものもある）」という言葉の方が実態に近い。統計学は基本的に「不可能なことを可能にする（不良設定問題を扱う）」学問だ。例えば、1、3、5 という数字の列から何が言えるだろうか。確実なことは3つの実数値が観測された、ということだけで、それ以上のことは想像するしかない。奇数列かもしれないし、乱数から３つの値を取得した際に偶然それっぽい数字が

techtech0521 2024/06/26

あとで読む

リンク

なぜ統計学には主義が必要なのか - hidekatsu-izuno 日々の記録

前回「ベイズ統計学に関する議論を整理する」では、できるだけ中立的な視点で書くことに注力し、伊津野なりの結論については特に書かなかった。今回のエントリでは、様々な見解や調べた結果を元に私見を書く。もちろん、伊津野は専門家ではなく、情報や理解が不足する部分については想像で補ったため「それはおかしい」と感じられる点もあるだろう。そのような記述を見つけたら、単に批判を書くのではなく、なぜ問題だと思うのか、自身のブログやTwitterなどで他の人間にも理解できるように論点を明確に書くようにしてほしい。うんこの投げ合いはうんざりだ。それに、コメント欄に批判や反論を書かれても、伊津野の理解力では適切な回答ができるとは思えない。広い範囲に意見を投げかけた方がより専門的な回答が得られ生産的だろう。*1 前置きが長くなったので本論に移ろう。まず先に結論を述べる。現在、ベイズ統計学は「（頻度主義とは異なる）

techtech0521 2024/04/12

あとで読む

リンク

「確率統計－機械学習その前に v2.0」を公開した - hidekatsu-izuno 日々の記録

以前、社内の勉強会用の資料として作成した「確率統計-機械学習その前に」という資料を今回大幅に改定して公開しました。改定の一番のポイントは、統計分析の総覧的なガイドとして使えるようにしたことです。正直な話、内容的に私自身も十分に理解出来ていない部分も多いのですが、いろいろ調べた結果、なんとなく統計分析の手法マップ的なものが頭の中に出来上がってきたので、それをアウトプットとしてまとめてみました。確率統計－機械学習その前に v2.0 from Hidekatsu Izuno 確率統計に限った話ではありませんが、新しい分野を学ぶ初学者にとって、全体像がよくわからないため混乱することが少なくありません。この資料を読むことでなんとなくでも全体を把握できていれば、他の文献を読む際にも理解が容易になるのではと思っています。例によって、確率統計については完全に素人なので、間違いもあるかもしれません。そ

techtech0521 2024/02/06

あとで読む

リンク

最強の圧縮アルゴリズム ZStandard を試す - hidekatsu-izuno 日々の記録

以前「続・圧縮アルゴリズム（実測）」というエントリにて、各種圧縮コマンドの特徴を調べたが、このたび facebook より最強と名高い ZStandard がリリースされたので、追加で実測してみた。以下はその結果。圧縮率はほぼ GZip 同等にも関わらず、圧縮時間は1/5、伸張時間も1/2、使用メモリ量は増えるもののさほどでもない。たしかに、これはなかなかの優れもの。高圧縮モードで使えば、bzip2並の圧縮率になるというのも良い。試していないけれども、あらかじめ辞書を作っておくと、圧縮率を更に上げることもできるようだ（どういう教育データを用意すればいいのかよくわからなかった）。圧縮プログラム圧縮後サイズ圧縮時間圧縮時最大メモリ量伸張時間伸長時最大メモリ量 lzip(best) 0.69 31.6 164.17 2.52 17.45 xz 0.69 23.87 106.96 2.4

techtech0521 2024/01/01

あとで読む

リンク

工数見積りの海を彷徨う - hidekatsu-izuno 日々の記録

[2018/07/01 追記] 過去に話題になったこともあり、このページに辿り着く方が多いようなのだが、係数導出の手法については継続的に改善を行っている。現時点では、「工数見積りの海を彷徨う・征服」というエントリに記載した「分位点回帰」を使うのがベストではと考えている。50%分位点が中央値にあたるため係数も安定しており、現在の見積りが過去のプロジェクトと比較してどのくらいの工数なのかが明確でわかりやすい。合わせて参考にしていただきたい。工数見積りが難しいのはわかっているのだが、そうは言っても根拠は欲しい。この業界に入ってからずっと考え続けているのだが、やはり難しい。この手の工数、工期という話題の時、役に立つのは次の資料だ。 IPA ソフトウェア開発データ白書 JUAS ソフトウェアメトリックス調査素晴らしいことにどちらも PDF 版は無料で配布されているので、ダウンロードして見ること

techtech0521 2023/12/21

あとで読む

リンク

日本の労働生産性はなぜ低いのか（おかわり） - hidekatsu-izuno 日々の記録

以前、「日本の労働生産性はなぜ低いのか」というエントリを書いた。先日、Twitter にて日本の統計データの分析について積極的に発表されている小川製作所さんとやり取りさせていただいた中で、新たに気付かされたことがあった。まず、下記のツィートのグラフを見てもらいたい。思いがけずアイディアをいただいたので、労働生産性(時間あたり付加価値)の購買力平価換算値のグラフを作ってみました。時間あたりだとドイツ、フランス、イタリア、イギリスの水準がかなり高くなります。日本はアメリカ、ドイツ、フランスの半分強です。 pic.twitter.com/XHuRnNhGdF — 小川製作所 (@OgawaSeisakusho) 2023年5月2日前述のエントリで書いたように労働生産性を考える場合には購買力平価換算ひとり当たりGDPを見るのが一般的であるが、日本においては少子高齢化が進みすぎ大きく歪

techtech0521 2023/08/05

あとで読む

リンク

日本の労働生産性はなぜ低いのか（メモ） - hidekatsu-izuno 日々の記録

前々から気になっている話題ではあるのだが、いくつも文献を見るうちに新たな気付きがあったのでメモ代わりに書いておく。日本のGDPは世界第三位だということはよく知られているが、それが日本の人口の多さに起因していることはあまり知られていない。４位のドイツは 8,300 万人、5位のイギリスは 6,700 万人程度しかいない。中国も豊かになったとはいえ、まだまだ貧しい地域に住む人も多く、世界第２位のGDPも14億の人口あっての順位だ。（なお、この順位は名目でも実質でも変わらない）一般に国の豊かさは人口で割ったひとり当たりGDPを見るが、この指標を使う場合、物価変動や為替レート変動の影響を除去するため購買力平価換算するのが一般的となっている。この購買力平価換算ひとり当たりGDPで見た場合、日本の順位は大きく下がる。先進７か国の中で最下位であるだけではなく、2009年には台湾、2018年には韓国に

techtech0521 2023/08/04

あとで読む

リンク

はてなブックマーク

タグ

ブックマーク / hidekatsu-izuno.hatenablog.com (7)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス