ill-identifiedのブックマーク (8)

  • データサイエンスのフォネティックコード: 不毛な議論に陥らないための提案 - ill-identified diary

    2026/5/1 誤字などの細かい数カ所の修正. 2026/4/29 はてなブックマークのコメントをうけて内容の一部を書き改めたり補足説明を強化するなどした. 概要 はじめに 頻出語句 データサイエンス データ・サンプル (標)・データセット・テーブル サンプル・例・インスタンス・観測点・レコード サンプルサイズ・サンプル数・母数・標数・例数・インスタンス数 説明変数・特徴量・属性・共変量・独立変数・回帰変数 経済学でのいろいろな「変数」 次元 被説明変数・従属変数・目的変数・(目的)ラベル・予測変数・応答変数・結果変数 データサイエンスで広く使われる用語と概念 AI モデル・仮説 パラメータ・母数・重み・媒介変数・係数 パラメータと重み 定数項とバイアス 母集団・標・データ生成分布 推定・予測と学習・推論 予測と推論 予測と訳される3通りの用語: forecast, predict

    データサイエンスのフォネティックコード: 不毛な議論に陥らないための提案 - ill-identified diary
    ill-identified
    ill-identified 2026/04/28
    私は本田勝一『日本語の作文技術』を参考に文を書いており、そこには単語を並列する際に「・」で区切る記法も含まれています。私のタイトル通り、やめてほしいと提案した理由を教えていただけるとありがたいです。
  • 「500年後に日本人が佐藤だけになる」という試算の問題と改善

    この投稿は https://ill-identified.hatenablog.com/entry/2024/04/21/230009 に投稿したものと同一の内容です. どのサービスが一番文書を書きやすいかを調べるために, いくつかのサービスで同一の内容を投稿しています. この記事の要約 先日報道された「500年後に日人が佐藤だけになる」という試算の内容に違和感を覚えた. 資料を確認してみると, 大きな問題のある方法で試算がなされていることがわかった. 苗字の絶滅問題について, より実現可能性の高いシナリオをシミュレーションし, そのプログラムと結果を公開した 報道された試算とは大きく異なる結果を得られた より精緻な分析を行いたいが, 技術的・計算リソース的なハードルに阻まれている なんか良いアイディアあったら教えてください はじめに 注: 稿のシミュレーションはまだ完了していません.

    「500年後に日本人が佐藤だけになる」という試算の問題と改善
    ill-identified
    ill-identified 2024/04/25
    はてなブログとzenn両方に同じ文章を投稿して、zennにはリンクも掲載したけど、それぞれ同じくらいブックマークが付く上にタグも異なるという学びを得た。
  • Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary

    概要 pysocviz が提供する機能 ggplot2 と同じようにできないところとその対策 aes() にクオートされてない変数を指定できない R のように改行できない ggplot2 で使えた色名が使えない ggplot2 で使えた linetype が使えない 文字化けの回避 ggrepel パッケージの利用 scales::percent などの単位・スケール指定 テーマや色パレットのプリセットを変更したい場合 subtitle/caption が表示されない 複数のグラフを連結できない hjust/vjust が使えない グラフ内の図形やテキストの大きさのバランスがおかしい geom_smooth/stat_smooth で一般化加法モデル (GAM) による平滑化ができない geom_quantile の method 指定ができない geom_smooth/stat_smoo

    Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド - ill-identified diary
    ill-identified
    ill-identified 2021/08/08
    @takilog さん コメントありがとうございます. 確かにこの記事はplotnineがどこまでできてどこまでが難しいかという話が不足していたので, 後半のセクションに書き足しました
  • https://ill-identified.hatenablog.com/entry/2021/06/11/14054

    ill-identified
    ill-identified 2021/08/01
    この記事へのリンクミスでしょうか? https://ill-identified.hatenablog.com/entry/2021/06/11/140544
  • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

    この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

    「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
    ill-identified
    ill-identified 2020/10/23
    ブックマークに多くコメントが寄せられていますが、タイトル以外も読んでいただけるとちゃんと書いてあります。文章の多さと拙さに辟易されるかもしれませんが既存の入門教科書にない切り口で書いたと自負しています
  • おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary

    2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom

    おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
    ill-identified
    ill-identified 2020/10/04
    エクセルやPythonで同じことをやろうとすると輪をかけて面倒臭いのでごあんしんください (pythonのほうも近いうちに何とかする予定です)
  • 確率予測とCalibrationについて - 機械学習 Memo φ(・ω・ )

    概要 確率予測とCalibration(キャリブレーション)に関する勉強会に参加したので、学んだことの一部と、自分で調べてみたことについてまとめました。 概要 Calibrationとは Calibration Curve Calibrationの方法 Sigmoid / Platt Scale Isotonic Regression 確率予測に使われる評価指標 Brier Score ECE コード 不均衡データに対するCalibration LightGBMにCalibrationは不要か NNにCalibrationは不要か 追記 : Calibrationの検討について 追記 : 発表スライドについて 終わり techplay.jp 勉強会で使われていた言葉を、自分なりの言い方に変えています。 間違いがありましたら、コメントいただけたら嬉しいです。 Calibrationとは 普通

    確率予測とCalibrationについて - 機械学習 Memo φ(・ω・ )
    ill-identified
    ill-identified 2020/06/07
    @repose さん 私の元の発表では広告リクエスト単位のCTRを想定し, 回帰問題としての正解ラベルは原理的に観測できないという場合を念頭に置いておりました. この方の記述を見る限り, 適切に伝えられなかったかもしれません
  • 四葉理論- リボンと嘘について.pdf

  • 1