タグ

ブックマーク / okumuralab.org/~okumura (11)

  • 「視覴」の謎

    ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AIChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤

    cartman0
    cartman0 2023/06/12
    なるほど、文字コードの問題だったのか
  • 振り子の等時性?

    [2018-07-01] 以下を最初に書いたのは2016-06-03であるが,わかりにくかったので,文科省の資料の話と数学の説明とを逆にした。 文科省サイトの小学校理科の観察,実験の手引き詳細にある小学校理科の観察,実験の手引き 第5学年A(2) 振り子の運動というPDFファイルには次のように書かれている(強調は奥村による)。 ここでは,糸におもりをつるして,おもりの1往復する時間を,おもりの重さ,糸の長さ,振れ幅を変えながら測定し,糸につるしたおもりの1往復する時間はおもりの重さや振れ幅によっては変わらないが,糸の長さによって変わることをとらえるようにする。おもりの重さが,おもりが1往復する時間を変化させる要因になるかを調べるためには,糸の長さや振れ幅を一定にして,おもりの重さだけを変えて調べるようにする。このように,変える条件と変えない条件について,条件を制御しながら計画的に実験できる

  • 二封筒の問題

    問題: スワミ(ヒンズー教の坊さん)が,一つの封筒に $x$ 円,もう一つの封筒に $2x$ 円を入れ,一方をあなたに,もう一方を相手に渡した。どちらの封筒を渡される確率も 1/2 である。あなたが封筒を開けたら $y$ 円入っていた。相手の封筒の中身を $Y$ とする。あなたは考えた。封筒は等確率で渡されたのだから,確率 1/2 で $Y = y/2$ または $Y = 2y$ のはずだ。その期待値 $(1/2)(y/2 + 2y) = 5y/4$ は,あなたの封筒の中身 $y$ より明らかに大きい。あなたは目をキラリとさせて,相手に封筒を交換しようと持ちかけた。相手も同じ計算をして,同意した。 この問題は Ronald Christensen and Jessica Utts, Bayesian Resolution of the "Exchange Paradox", The Ame

  • t検定

    Rに x = scan() と打ち込んで,1: のようなプロンプトが出たら,上の表の数値10個をそこにコピペし,最後にEnterを1〜2回打ち込んでください。あるいは x = c(1.9, 0.8, 1.1, 0.1, -0.1, 4.4, 5.5, 1.6, 4.6, 3.4) というコマンドをRにコピペしても同じです。 検定の前に,まずはグラフを描いてみましょう。一例です: 箱ひげ図 boxplot(x) ドット図 stripchart(x, pch=16, at=0, method="stack") ヒストグラム hist(x, right=FALSE, col="gray") データのイメージがつかめたら,$t$ 検定してみましょう。 t.test(x) 結果は次のように表示されます: One Sample t-test data: x t = 3.6799, df = 9, p-

  • Wilcoxon-Mann-Whitney検定

    Wilcoxon-Mann-Whitney検定(WMW検定) WMW検定とは 2組の数 \[ \{ x_1, x_2, \ldots, x_n \},\quad \{ y_1, y_2, \ldots, y_m \} \] があったとき,$x_i > y_j$ を満たす $(i, j)$ の組の数に $x_i = y_j$ を満たす組の数の半分を足したものを $U$ とすると,もしこれらの $n + m$ 個の数の並び順がランダムであれば,$U$ の確率分布は漸化式 $p_{n,m}(U) = \frac{n}{n+m} p_{n-1,m}(U-m) + \frac{m}{n+m} p_{n,m-1}(U)$ から計算できます。さらに,$n$, $m$ が大きければ,$U$ の分布はほぼ正規分布 $N(nm/2, nm(n+m+1)/12)$ になります。このことを使った検定を,Wilco

  • ロジスティック回帰と変数選択

    ロジスティック回帰とは $n$ 人について $m$ 個の変数を測定した。$i$ 番の人の $j$ 番の変数の値を $x_{ij}$ とする。また,$i$ 番の人がある性質を満たすならば $y_i = 1$,そうでなければ $y_i = 0$ で表す。ここで $y_i$ を $x_{ij}$ から予測するのが問題である。具体的には,模擬試験や内申書の成績から入試の合否を予測する問題や,性別・年齢・血圧などから病気を予測する問題がこれである。 このように結果が 0 か 1 かに限られる場合は,結果が 1 となる確率 $p_i$ を $x_{ij}$ についての線形の式で予測することが考えられる。しかし,確率は $0 \leq p_i \leq 1$ の範囲に限られるので, \[ \mathrm{logit}(p) = \log \frac{p}{1-p}, \qquad p = \mathrm

    cartman0
    cartman0 2017/12/16
  • ROC曲線

    試験の点数から○○大学に合格(T)か不合格(F)かを予測したいときや,検査値から病気(T)か健康(F)かを判断したいときなどがあります。要するに,与えられた値から,真(TRUE)か偽(FALSE)かを判断したいわけです。 例として右の表のような場合を考えましょう。 与えられた値をどこで切っても,TとFは完全には分離できません。例えば11で切って,11以上を陽性(positive),11未満を陰性(negative)とした場合,10個のTのうち5個がpositiveに入りますので,true positive(真陽性)の割合は0.5です。また,5個のFのうち1個がpositiveに入りますので,false positive(偽陽性)の割合は0.2です。そこで,(0.2, 0.5) をプロットします。このように,区切る値(閾値,カットオフポイント)をいろいろ変えて,横軸にfalse positi

    cartman0
    cartman0 2017/12/16
  • ポアソン回帰

    最小2乗法(復習) $x = (1,2,3,4)$ のとき $y = (2,3,5,4)$ になったとします(図)。このデータを例えば $y \sim ax + b$ というモデルでフィットしたいというのが回帰の問題です。ここでの「$\sim$」は「あてはめる」とか「なるべく等しくする」というつもりの記号です(詳しい意味はその都度決めます)。 念のため,右の図を描いたコード: par(mgp=c(2,0.8,0)) plot(x, y, type="p", pch=16, xlim=c(0,5), ylim=c(0,6), asp=1) abline(1.5, 0.8) text(x, y, pos=1, labels=c("(1,2)","(2,3)","(3,5)","(4,4)")) 最も一般的なフィットのしかたは,残差 $y - (ax + b)$ の2乗和 \[ \sum_{i=

  • 信頼区間って何?

    「95%信頼区間とは,真の値が入る確率が95%の区間のことです」というような説明をすることがあります。私も,一般のかたに説明するときは,ついそのように言ってしまうことがあります。でも当は真っ赤なウソです。主観確率を扱うベイズ統計学はここでは考えません。 正規分布では,ウソの考え方をしても結論が同じになることがあるので,ここではわざと,左右非対称なポアソン分布を考えます。 ポアソン分布とは,1日に起こる地震の数,1時間に窓口を訪れるお客の数,1分間に測定器に当たる放射線の数などを表す分布です。平均 $\lambda$ のポアソン分布の確率分布は次の式で表されます: \[ p_k = \frac{\lambda^k e^{-\lambda}}{k!} \] $\lambda = 10$ のポアソン分布の確率分布をグラフにすると次のようになります(当は右に無限に延びるのですが,$k = 30

  • e-StatのAPI

    [2015-01-30] 政府統計の総合窓口(e-Stat)−API機能バージョン2.0の提供が始まった。以下は2.0に書き換えた。 [2015-12-21] 「からだにいいもの」にRで解析:政府統計の総合窓口(e-Stat)のAPIを利用したデータの取得例という記事が出たようだ(まだ読んでない)。 [2016-07-17] e-Stat APIバージョン2.1をRから使う,API 2.1になってCSVもどきが取れるようになったようだ。 はじめに 政府統計ポータル(e-Stat)と R でサンタさんの12月の出費動向を調べてみた - akiyoko blog はマウス操作の説明がほとんどなので,APIを使ってスマートにできないかと考え, WebAPI - e-Stat を使って統計情報を取得してみる - Qiita などを読んで勉強を始めた。しかし,R_Linux 師匠が RPubs -

  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 1