タグ

statisticsに関するichanのブックマーク (369)

  • データ視覚化サイトの日本語版があったらいいな | Okumura's Blog

    生徒・学生にグラフの描き方を教えるのにまず使うのは Excel だろう。しかしこの Excel というソフト,チャートジャンクの発生源だ。もっとましなものはないのか。私は昔は gnuplot を使っていたが,最近は統計計算を含めて R を使っている。凝ったものなら Asymptote(→ ベクトルグラフィック言語Asymptoteで日語が通る!)で描けばよい。でも学生に教えるのはたいへん。 そこで登場するのが,以前 ロシア総選挙の不正を示唆するグラフ で紹介した Swivel などのデータ視覚化サイトだ。日語はあまりうまく通らないようだが,日にもよく使っているかたがおられる。 Inside Swivel: Graphing によれば,Ruby の Gruff や,R,gnuplot も検討したが,結局 ploticus + Ruby に落ち着いたとのこと。 このようなデータ視覚化・グ

  • Não Aqui! » 10行強で書けるロジスティック回帰モデル学習

    ロジスティック回帰(logistic regression)の学習が,確率的勾配降下法(SGD: stochastic gradient descent)を使って,非常に簡単に書けることを示すPythonコード.コメントや空行を除けば十数行です. リストの内包表記,条件演算子(Cで言う三項演算子),自動的に初期化してくれる辞書型(collections.defaultdict)は,Python以外ではあまり見ないかも知れません. リストの内包表記は,Haskell, OCaml, C#にもあるようなので,結構メジャーかも知れません. [W[x] for x in X] と書くと,「Xに含まれるすべてのxに対し,それぞれW[x]を計算した結果をリストにしたもの」という意味になります.sum関数はリストの値の和を返すので,変数aにはXとWの内積が計算されます. Pythonでは,三項演算子を条

    ichan
    ichan 2009/04/03
    あとでRでやるかも
  • 統計に関する覚書

    統計に関する覚書 主にアクチュアリー1次試験の数学で使うような知識の厳密な証明など。気が向いたら更新していきます。05/10/13更新。 いろいろな確率分布。定義、密度、なるべく平均、分散、モーメント、特性関数など。PDF文書。 区間推定の考え方。PDF文書。 二項母集団、ポアッソン母集団、指数母集団の精密法による区間推定。PDF文書。 二次元正規母集団の標相関係数の標分布、特に母相関0の場合の密度など。PDF文書。今のところ要約だけ。 有限母集団修正項の導出:有限母集団からの非復元抽出した標の標和の分散公式。PDF文書。 正規母集団より抽出した標の標平均と標分散の独立性、自由度の意味。PDF文書。 参考書一覧の覚書。HTML文書。 to 物置

    ichan
    ichan 2009/03/26
    相関係数の分布について
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • 代表秘書の逮捕より深刻、民主党が抱えるある問題:日経ビジネスオンライン

    政権前夜を迎えたはずの民主党に新たな問題が浮上した。小沢一郎代表の公設第1秘書の逮捕もさることながら、肝心な経済政策が民意と大きく乖離していることが日経ビジネスの調査で明らかになった。 日経ビジネスは今年1月から2月にかけて、全衆院議員480人と上場企業の会長・社長、日経ビジネスオンラインの読者を対象に「第2回 経済政策アンケート」を行った(下図参照)。 >>>図の左側を拡大する    >>>図の右側を拡大する このアンケートは、日経済が復活するためにどのような政策が必要かについて、17の質問で聞いたものだ。衆院議員で回答があったのは147人。質問のうち、具体的な政策内容を聞いた15問について、彼らの回答をクラスター分析(類似度を数値化し、近いものを集めて集団を作る)という方法で分類したところ、政党の枠を超えた4つの集団ができあがった。これを仮にA党、B党、C党、D党と名づけた。 上の図

    代表秘書の逮捕より深刻、民主党が抱えるある問題:日経ビジネスオンライン
    ichan
    ichan 2009/03/13
    元はPCAのbiplot? 生データ出してほしいね。
  • S. R. Srinivasa Varadhan - Wikipedia

  • S.R.Srinivasa Varadhan

  • 統計処理ソフト R 入門 講習会資料

    講習会の目的 講習会は, R についての自習の基盤をつくることを目指します。 たとえ初心者向けの数時間の入門講習でなく1年間の毎週の演習授業であっても,R に関してすべてを説明するのは不可能だと思われます。 R の世界は,縦にはそこそこ深く,横には果てが見えないほど広いです。 CRAN に登録されている R のパッケージは 1000 を超えました。 よって,受講者の幅も広いことですし,受講者各自にとってぴったりな統計解析の実用的な解説をするのはあきらめて, 各自が必要に応じて情報を探し,見つけたものを難なく活用できるようになること,を目標にしました。 ここに自分の求めている分析手法や作図法などの答えがあるとは期待しないで下さい。それは帰ってからのあなたの楽しい仕事です。 R の利用と R 言語 R の根幹は R 言語のインタプリタであり,ユーザはR言語を駆使することでRを操作します。 S

  • 連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:はじめMath! Javaでコンピュータ数学|gihyo.jp … 技術評論社
  • 統計的検定よりグラフを! | Okumura's Blog

    p 値(有意確率)は,数学上のモデルと現実のデータが両立するか矛盾するかの度合を確率のことばで表したものである。2組のデータが近いか遠いかを表すものではない。たとえばタコとイカの重さの違いは p = 0.05 であるなどとは言わない。ところが,これに近い研究報告があった。度数分布図を描くだけでいいのに。 x と y を測定しながら,x の上位群・下位群について y の平均値の差を t 検定したものもあった。せっかくの測定値を上位群・下位群に分けるだけに使うのは情報の無駄だ。散布図を描くほうがはるかに多くの情報を伝えられるのに。 理解できていない統計的方法を使うよりも,コンパクトで情報量のあるグラフを描く努力をするほうが報われる気がする。

  • 卒論修論のために、これから統計学を学ぶつもりの人に知って欲しい5箇条 - 女教師ブログ

    大学1年から生物学部とか経済学部に在籍している人なんかは、「統計学」の体系的なトレーニング受けざるを得ないと思うので問題はないのですが、問題はそういうトレーニングをすっ飛ばしたまま、統計解析が必要になる人の場合。例えば、学部時代は英米文学専攻で統計に無縁だったけれど、大学院で英語教育系に転向した人。あるいは、教育方法論系の研究室にいてフィールドワークばっかりやっていたけれど、統計系の分析も必要になった場合。 1. 先輩から教えてもらわない まず、一番やってはいけないのが、先輩の院生に教えてもらうということ。「あの先輩に、色々教えてもらいたい(ハート)」など下心がある場合はまた別ですが、純粋に統計学“だけ”を学びたいなら先輩に教えてもらうのは危険です。 あなたは統計学初心者ならば、その先輩が「きちんと統計解析を理解している」かどうかを知る術はありません。周囲の評判というのもありますが、そもそ

    ichan
    ichan 2009/02/28
    統計学習に必要なのは、理論、試せて中身が見える正しいコード、データと結果のセットの3つ。これがあると学習->体験->理解のサイクルがまわる。つまり数式と図がしっかり書いてある本とRがあればいいよ。
  • Gaussian Processes for Machine Learning: Contents

    Carl Edward Rasmussen and Christopher K. I. Williams MIT Press, 2006. ISBN-10 0-262-18253-X, ISBN-13 978-0-262-18253-9. This book is © Copyright 2006 by Massachusetts Institute of Technology. The MIT Press have kindly agreed to allow us to make the book available on the web. The web version of the book corresponds to the 2nd printing. You can buy the book for a list price of 50.00 US$ or 40.00 UK£

  • Rafe Donahueの統計図の描き方 | Okumura's Blog

    Fundamental Statistical Concepts in Presenting Data: Principles for Constructing Better Graphics (PDF) はたいへん参考になる。あちらの小学校のひどい教材の紹介もおもしろい。日ではまさかあんな教え方をしていないだろう。

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 共立出版株式会社 近刊情報2009年2月刊行予定『統計的因果推論−モデル・推論・推測−』

  • ミクの歌って覚える統計入門

    VOCALOID 初音ミクの歌のパワーで、統計の基礎を楽しく学んじゃおう。 もうつまらない教科書はいらない!

  • K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ

    K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。 以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。 この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+

    K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ
  • 情報統計力学の深化と展開 (DEX-SMI) — DEX-SMI

    文部科学省 科学研究費補助金・特定領域研究 研究期間:平成18年度~平成21年度 領域代表者:樺島 祥介(東京工業大学 大学院総合理工学研究科 知能システム科学専攻)概説自然界のモノはどれも数種類の基粒子からできています.では,基粒子の性質さえわかれば,自然のすべてを理解したことになるのでしょうか.否,そうではありません.自然を観察してみると,一つ一つの粒子の振る舞いは単純でもそれらが沢山集まることで予想もつかない現象があらわれることがあるからです.この“沢山あること”に着目することの重要性をモノの科学ではしばしば「More is different(量が増えれば質が変わる)」と表現します.我々はこの視点をコトの科学にも導入し「情報学でも“More is different”!」というスローガンの下で研究を推進します.これまでの研究では情報通信の基礎理論に関して顕著な成果が得られていま

  • timecourse

  • pcaMethods