indenkunのブックマーク (139)

  • 【スゴ本】「おもしろいかも」を確信に。数学沼に引きずり込む4冊 | レバテックラボ(レバテックLAB)

    1. 『寿司 虚空編』小林銅蟲 著 2. 『ウィトゲンシュタインの講義 数学の基礎篇』コーラ・ダイアモンド 編、大谷弘 、古田徹也 訳 3. 『数学に魅せられて、科学を見失う』ザビーネ・ホッセンフェルダー 著、吉田三知世 訳 4. 『数学の認知科学』G.レイコフ、R.ヌーニェス 著、植野義明、重光由加 訳 ▲『寿司 虚空編』小林銅蟲 著、三才ブックス 1冊目は、『寿司 虚空編』を紹介する。 寿司屋を舞台に巨大数のネタが展開されるマンガなのだが、「すごい」とか「ヤバい」といった感想しか出てこない。 「巨大数」とは、ざっくり言うと、あまりにも巨大すぎて、現実の世界や通常の数学の範囲では登場しないような数のこと。「とにかくデカい数を考えようぜ」といった厨二的な動機から生まれた概念だ。 とてつもなくデカく、100兆とか無量大数なんてものではない。天文学的な数字としては、宇宙の原子の数(およそ108

    【スゴ本】「おもしろいかも」を確信に。数学沼に引きずり込む4冊 | レバテックラボ(レバテックLAB)
  • R code for animated chord diagrams | Guy Abel

    indenkun
    indenkun 2025/04/13
    circlize packageを使用してコードダイアグラムを作成、アニメーション化するTIPS
  • https://stat.sys.i.kyoto-u.ac.jp/titech/class/dk2005/san08.pdf

    indenkun
    indenkun 2025/02/07
    "AIC() と extractAIC() の差は S に依存しないので,モデル選択における AIC 値の変化は,どちらで計算しても同じ."
  • 10個の怪しい分析事例から学ぶ統計学 - Leverages データ戦略ブログ

    データ戦略室で室長かつデータサイエンティストをしている阪上です。今回は統計学のことをもっと伝えたくて10個の事例について記しました。 『統計学で嘘をつく法』というがありますが、人々に間違った解釈を与える以上、統計学は便利である反面、罪深いものでもあります。ビジネスの世界でデータサイエンティスト業を生業としているものとしては誤解や誤用とは向き合い続けていきたいです。 統計学などの知識を正しく理解して使うというのは中々難しいと思います。先日読んだ『統計学再入門』という書籍にも記されているように、科学者ですら誤用や誤解が蔓延しているとされる統計学において、ビジネスの世界でも誤用されないわけがないと思われます。 そこで、私が過去にビジネスを進める上で観察した統計学の誤用と、観察はしていないが良くありそうな誤用について記してみたいと思います。両者を混ぜることにより、社内で実際に生じたエピソードを特

    10個の怪しい分析事例から学ぶ統計学 - Leverages データ戦略ブログ
  • 多重比較の問題を考える前に,p値の分布を見ておく - ケィオスの時系列解析メモランダム

    検定を繰り返し何度もやると,「p値の調整をしろ」と言われます.これは多重比較の問題と呼ばれるもので,何度も検定を繰り返すと,差がないのにp値が小さいものが偶然に観測されやすくなります. この多重比較の問題を理解するためには, * p値は絶対的な正しさの目安にはなれないこと * p値はきまぐれ (確率的)で,たまたま小さかったり,たまたま大きかったりすること を知っておく必要があります. まったく差がない比較では,p値は一様分布に従って決まる 次の質問をされたらなんと答えますか. 「2つのデータを比較するときに,両者にまったく差がなければ,p値はどんな値をとる?」 統計的に言えば「帰無仮説が正しいとき」のp値は?という問題です. 答えは,1に近い値です (ウソです).そうではなく,答えは, 0から1までの値をとる一様分布に従ってランダムに決まる ということです. この事実は数学的に証明されて

    多重比較の問題を考える前に,p値の分布を見ておく - ケィオスの時系列解析メモランダム
    indenkun
    indenkun 2025/01/02
    “「2つのデータを比較するときに,両者にまったく差がなければ,p値はどんな値をとる?」統計的に言えば「帰無仮説が正しいとき」のp値は 0から1までの値をとる一様分布に従ってランダムに決まる”
  • GitHub Pagesとpkgdownの使い方を勉強したまとめ - Triad sou.

    パッケージ紹介ページを作成したかった 最近Rパッケージを作り、せっかくだからpkgdownのページを作ってみたいなと思ってちょっと試した結果をメモしておきます。 パッケージを作るときの(追加)作業 RStudioのプロジェクト機能を使用して、GitHubと連携してパッケージを作成済みであることを想定します。 happygitwithr.com Reference manualのファイル(Rdファイル)はroxygen2の機能を使用して作成しておきます(Rのソースファイルにコメントとしてreference manualファイルの生成に必要な内容を所定のタグを使って定義する)。 roxygen2.r-lib.org pkgdownにはreference manualファイルの内容を見栄えの良いページに変換してくれるので、とてもありがたいです。 pkgdownでは 色々できる ようです(他の機能

    GitHub Pagesとpkgdownの使い方を勉強したまとめ - Triad sou.
    indenkun
    indenkun 2025/01/02
    "pkgdownにはreference manualファイルの内容を見栄えの良いページに変換してくれる"
  • 今年買った統計学の本を流し読みして消化した気になる - と。

    この記事は統計・機械学習の数理Advent Calendar21日めの記事です。 正直数理的な要素を詰める時間が全く取れず、それでもなにか記事を書かなければという使命感から、今年読んだの紹介をすることにしてお茶を濁そうと思います。 かねてよりは割と取捨選択をするタイプで、図書館や書店でよくよく吟味してから買うのですが、なんだかんだ統計学の書籍はノールック購入してしまうのは未だに癖として抜けません。 今回に至っては当に今年購入したのかすら定かではありませんが、記憶と出版年から「多分今年買ったんだと思います」という積読を選び取り、今年のうちに流し読みだけでもしておこう、という雑な記事になります。 どれも良いです。モチベーションのある人は是非買ってみてください。 免責事項 3月から5月まで休職していたときにはほとんど統計学や機械学習に関するを受け付けない状態であったのですが、運良く3

    今年買った統計学の本を流し読みして消化した気になる - と。
  • RのSys.time()でミリ秒以下を表示する

    Rで時刻を表示すると、デフォルトでは秒までしか表示されません。ログを管理するときに、ミリ秒以下も出せないと色々と不便なので、方法を調査しました。 time <- Sys.time() print(time) #> [1] "2024-12-24 06:54:23 JST"?Sys.timeを確認すると、digits.secオプションで小数点何ケタまで表示するか調整できるとわかります(https://helpr.atusy.net/?q=Sys.time&pkg=base&topic=Sys.time)。ただし、精度はマイクロ秒まで(6ケタ)。 withr::with_options(list(digits.secs = 6), { print(time) }) #> [1] "2024-12-24 06:54:23.650895 JST"オプションを弄らずにやりたい場合はformat関数を

    RのSys.time()でミリ秒以下を表示する
    indenkun
    indenkun 2024/12/24
    "Rで時刻を表示すると、デフォルトでは秒までしか表示されません。ログを管理するときに、ミリ秒以下も出せないと色々と不便"
  • 【R】新しい回帰分析表のパッケージ {modelsummary} - Waves, Currents and Insights

    Rで計量経済や統計分析やる時に、結果をきちんと理解しながらモデル作りたいし、できたモデルの結果を書き出すのも間違いなくやりたいですよね。 新しい回帰分析表のパッケージを発見したので、ざっと試してみました。 Rの回帰分析のパッケージ {modelsummary}パッケージ さっそくインストール シンプルに回帰分析の出力 出力フォーマット コンソールに表示 情報の編集 見た目 回帰分析表の要素 標準誤差・t統計量・p値・信頼区間 表のタイトルとメモ 変数名の変更 モデルフィットなどの統計量 P値の星 小数点以下の調整 行の追加 で、estimatrは使えるのか? まとめ Rの回帰分析のパッケージ Rでの回帰分析の表を書き出すのには {stargazer}というパッケージがあって、かなり柔軟にかつ自動的にhtmlやLatexに書き出しができるのですが、作者の都合か、更新が止まってしまってます。更

    【R】新しい回帰分析表のパッケージ {modelsummary} - Waves, Currents and Insights
  • R, tbl_summary, treating continuous variables correctly

    indenkun
    indenkun 2024/12/19
    gtsummaryで数値がカテゴリー化されたときの対策
  • 全ての学習率スケジューリングを過去にするOptimizer

    それでは ScheduleFree の使い方を見ていきましょう。といっても、基的には従来のoptimizerとなんら変わりません。差分は以下の2点です。 scheduler が不要になること optimizer.eval()とoptimizer.train()を適切なタイミングで呼ぶこと 例えば、AdamWとなんらかのschedulerを使う場合のよくあるモックを考え、そこからの差分として骨子を表現してみると、以下のような感じになるかと思います[4]。 import argparse import torch import torch.nn as nn import torch.nn.functional as F from pathlib import Path +from schedulefree import RAdamScheduleFree from torch import

    全ての学習率スケジューリングを過去にするOptimizer
  • R言語は本当に実装向きではないのか?— 固定観念を問い直す - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに こんにちは、事業会社で働いているデータサイエンティストです。 この記事は、新しい統計学・機械学習のモデルの提案や、実践的なR言語のテクニックではなく、 どちらかというとR言語のコミュニティが今後R言語をどうしていくべきかに対して、 R言語歴7年目の一個人として提案し、関心のある皆さんにも考えていただきたい内容になります。 具体的には、私の経験を生かして、R言語を用いたアルゴリズムのビジネス番環境への実装する際に直面する当の困難について色々紹介したいと思います。 R言語は実装に向いていないという言説は皆さんも普段よく聞くと思

    R言語は本当に実装向きではないのか?— 固定観念を問い直す - Qiita
    indenkun
    indenkun 2024/11/28
    “furrrなどの並列計算パッケージでは解決できません。これらのパッケージはタスクを複数のコアに分割して並列実行する仕組みを提供しますが、最終的にはR言語は利用可能なCPUコア数までしか同時に計算できないから”
  • R cmd check note: unable to verify current time

    indenkun
    indenkun 2024/11/22
    Rのパッケージのcheck時に“checking for future file timestamps ... NOTE unable to verify current time”とNOTEが表示されるときの姑息的対応方法
  • 「未婚男性は極端に短命」というのは誤り~未婚男性にとっても「年金の繰り下げ」は有用 | 大和総研

    「67.2歳で未婚男性の半分は亡くなっている」「有配偶男性より14年以上も早い」 2022年に公開された記事(※1)にこのような文章があり、インターネット上で継続的に話題になっている。もし、当にそうであれば、原則65歳から支給開始となる公的年金を、未婚男性は平均して2年程度しか受け取らずに亡くなっている計算になる。この記事をもとに、未婚男性にとって公的年金制度は払い損であるとか、60歳からの繰り上げ受給をした方がよいなどとする言説もインターネット上によく見られる。 公的年金制度は長生きすることで所得が不足するリスクを社会で支えるものであり、結果的に短命に終わった者(老後の所得不足が生じなかった者)が受け取る年金が、その者が支払った保険料を下回るのは制度の必然だ。しかし、もし当に未婚男性が極端に短命なのだとしたら、公的年金制度に不満を持つのも当然だろうし、年金の受給開始時期の選択の際にも

    「未婚男性は極端に短命」というのは誤り~未婚男性にとっても「年金の繰り下げ」は有用 | 大和総研
  • カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部

    こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。 私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。 結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び考え直すと、すんなり理解できたというお話です。 カイ二乗検定の手順まず、サイコロを何度も投げ、出た目の回数(実測値)を記録します。偏りのないサイコロでは、全ての目が均等に出るはずです。この理論的な回数を理論値と呼びます。 次に、実測値と理論値の差を計算し、その差を二乗してから理論値で割ります。この計算結果を「ズレ」と呼びま

    カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部
  • 勉強から研究へ

    hep-th 系の学生さんと話をしていると、勉強の仕方はわかっているのだけれど、 そこから論文を書くことになかなか移行できないケースが散見されます。 ではどうやったらいいのか、という話を何度かすることがあり、毎度同じような助言をしているので、 この際まとめておこうかと思った次第です。 理論物理で且つ hep-th にしか適用できない話も多いかと思いますので、悪しからず。 また、最近子供と話すことが多いので、口調が幼い子供相手のものに引きずられている気がしますが、すいません。 (初稿:2024/9/20) なぜ論文を書かないといけないの? 勉強しているだけではダメなの? 他のところでも書きましたが、教科書や、著名な大論文の勉強をやっていると素晴らしいことを学んで、理解が深まって、とても楽しいです。 一方で、論文を書くためにがんばって新しいことがすこしわかったとしても、自分でなしとげた、という

  • 内閣府、「学術論文等の即時オープンアクセスの実現に向けた基本方針」に関するFAQを公開

    2024年7月9日付けで、内閣府のウェブサイト上で、4月に開催された「学術論文等の即時オープンアクセスの実現に向けた国の方針に関する説明会」の関連資料として、同基方針及びその実施に当たっての具体的方策に関するFAQをまとめた文書が公開されています。 即時オープンアクセス(OA)の対象や方法、運用の方針に関する18の質問とその回答が掲載されています。 研究DX(デジタル・トランスフォーメーション)(内閣府) https://www8.cao.go.jp/cstp/kenkyudx.html ※「講演会等」の項目に「FAQ(令和6年7月9日公表)(PDF形式:179KB)」が掲載されています。 学術論文等の即時オープンアクセスの実現に向けた基方針、及び学術論文等の即時オープンアクセスの実現に向けた基方針の実施にあたっての具体的方策に関するFAQ(令和6年7月9日) [PDF:179KB]

    内閣府、「学術論文等の即時オープンアクセスの実現に向けた基本方針」に関するFAQを公開
  • Using un-exported function from another R package?

    indenkun
    indenkun 2024/06/28
    “fun <- utils::getFromNamespace("fun", "pkg")”
  • Achim Zeileis (@zeileis@fosstodon.org)

    indenkun
    indenkun 2024/06/23
    “All #rstats package on #cran will get an official DOI!”
  • Henrik Bengtsson (@henrikbengtsson@mastodon.social)

    indenkun
    indenkun 2024/06/23
    “CRAN package pages now announce when a package has an issue that needs to be fixed before a certain date (to avoid being archived)”