[B! 統計] caretta2のブックマーク

なるほど統計学園TOP

はじめに統計のできるまでデータの探し方（初級編）グラフの作り方（初級編）特徴を捉える（初級編）統計クイズ王！

caretta2 2010/06/24

統計

リンク

bayonでソフトクラスタリング - mixi engineer blog

先日ようやくドラクエ9をクリアしたのですが、切ない話が多くて、たまに泣きそうになってしまったfujisawaです。以前ご紹介したデータクラスタリングツールbayonにいくつか機能追加を行いましたので、その中から以下の2つをご紹介させていただきます。入力データ中の特徴的なキーを自動的に特定して、クラスタリングの精度を向上させる事前に行ったクラスタリング結果を使用して、各ドキュメントに関連するクラスタを特定する入力データから特徴的な要素を特定 bayonでは入力データとして、各ドキュメントに対し、その特徴を表すキーとポイントを指定する必要があります。例えば以下の例では、最近食べたメニューの名前とその回数を、各ユーザの特徴として指定しています。 fujisawa 卵かけご飯 4 みそ汁 6 ソーメン 3 kimura ステーキ 8 みそ汁 7 寿司 4 ... ここで、実は「みそ汁」は多く

caretta2 2009/08/04

統計

リンク

適切なクラスタ数を推定するX-means法 - kaisehのブログ

K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は（特に根拠もなく）200個に決め打ちになっていました。これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC（ベイズ情報量規準）を比較し、値が改善しなくなるまで分割を続けます。調べたところ、Javaのデータマイニングツー

caretta2 2009/08/02

リンク

軽量データクラスタリングツールbayon - mixi engineer blog

逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。クラスタリングとはクラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

caretta2 2009/06/22

リンク

統計的に正しいランキングを行う方法をJavaで書く - バイオインフォマティクスって何ですか？

Java | 統計的に正しいランキングを行う方法を見たのでちょっとJavaで書いてみる。はじめになにがしたいかというと、「レイティング」というのをご存じでしょうか。Amazonとかで商品を購入者が星つけて評価したりしてるやつ。ああいうので「良かったランキング」というのを作りたい。みんなが「購入して良かった」という評価をつけてる商品は、他の人にとっても「良かった商品」になる可能性が高い。いい商品だということがわかるわけです。問題点じゃあどういうふうにランキングをつければいいの？ということを考えると、次の問題にぶちあたる。評価してる人の数の違い。例えば、Aという商品は100人が評価していて、平均の星の数は 4.8 だとする。一方、Bの商品は1人が星5つで評価していたとする。このとき、Aの商品とBの商品ではどちらをランキング上位にすればいいだろうか？あなたならどちらを買いたい？Aはたくさんの人が

caretta2 2009/05/14

リンク

統計的に正しいランキングを行う方法 - Hello, world! - s21g

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 ポジティブ／ネガティブ投票による正しいランキング方法が以下の記事で紹介されています。 How Not To Sort By Average Rating この計算方法では、投票数が少ない場合には分散が大きく不正確な評価で、投票数が多くなるにつれて分散が小さく正確な評価が得られているという事を考慮しています。以下数式これはScoreの信頼区間を表しています。この信頼区間の下界をランキングのスコアにすれば良い事になります。ここで、は、です。全体に占めるポジティブ投票数の割合ですね。は標準正規分布上の信頼区間の有意確率です。さて、五段階評価によるRatingに同様のテクニックを適用する場合はどうしたらいいでしょうか

caretta2 2009/05/13

統計

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

caretta2 2009/04/16

統計

リンク

http://excelstatistics.mathlab.info/

caretta2 2009/04/16

統計

リンク

i プログラミングのための確率統計（仮）未完成原稿（平成 20 年 11 月 3 日）未完成原稿のため誤りや抜けがあります。お気づきの点はこちらまでお知らせいただけると幸いです。 http:/

i プログラミングのための確率統計（仮）未完成原稿（平成 20 年 11 月 3 日）未完成原稿のため誤りや抜けがあります。お気づきの点はこちらまでお知らせいただけると幸いです。 http://wiki.fdiary.net/lacs/?Comment （平成年月 ! 日コンパイル） iii 能書きこの本は、確率・統計に関して「ぜひわかっておいてほしいのに、やさしい本ではあまりしっかり解説されていなくて困る」という事項をおさえることを目標にしています。確率・統計といえば、めんどうな数えあげから始まって公式だの「○○検定の手順」だのを習いながらも、結局、実際の仕事に役立つのは「表計算ソフトの操作法」……といった印象を持たれがちです。使わないと「科学的」「客観的」とは認めてもらえないから、しかたなく所定の手続きに従う、という消極的動機で接している方も多い

caretta2 2009/03/11

リンク

R: The R Project for Statistical Computing

Getting Started R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS. To download R, please choose your preferred CRAN mirror. If you have questions about R like how to download and install the software, or what the license terms are, please read our answers to frequently asked questions before you send

caretta2 2009/01/09

リンク

第 7 回アルゴリズムイントロダクション輪講会資料: Days on the Moon

すでにニュースでも伝えられている通り、12 月 1 日に第 7 回アルゴリズムイントロダクション輪講会がありました。今回の担当は私だったので、その発表資料を公開します。中央値と順序統計量 (その 1) 予定順序統計量とは選択問題とは最小値と最大値平均線形時間選択アルゴリズム中央値と順序統計量 (その 2) 最悪線形時間選択アルゴリズム 3 つずつのグループに分割した場合 7 つずつのグループに分割した場合参考文献中央値と順序統計量 (補足) 4 つずつのグループに分割した場合 6 つずつのグループに分割した場合 Lazy-Select Randomized-Partition スタッフロール「どうせ後から Web で公開するんだから、PDF とか見るのに手間がかかるものは使ってられないよね。やっぱ時代は XML 複合文書でしょ!」と、数式を表現するのに MathML を使

caretta2 2008/12/20

リンク

教育評価用Javaクラスライブラリ

- 教育評価用Javaクラスライブラリ - 教育評価に利用できる分析法Javaクラスライブラリです。現在以下の分析を行うことができるライブラリが含まれています。 SS分析(Semantic Structure Analysis) LFT分析(Logical Flow Test Analysis) S-P表(Students-Probl ems Table) IRS分析(It em Relational Structure Analysis) 課題系列化法クラスター分析法参考文献分析法文献名

caretta2 2008/12/04

java
統計

リンク

微分積分

静岡理工科大学情報学部コンピュータシステム学科菅沼研究室のページです．主として，プログラミング言語（ HTML，C/C++, Java, JavaScript, PHP, HTML，VB，C# ），及び，システムエンジニアとしての基礎知識（数学，オペレーションズ・リサーチやシステム工学関連の手法）を扱っています．

caretta2 2008/12/04

java
統計

リンク

「平均のひとつ覚え」から卒業〜社会人なら知らなきゃ恥ずかしい統計の基礎知識 | Web担当者Forum

1日あたりの訪問者数を単純に平均すると次のようになる。単純な平均訪問者数：4699人しかし、このサイトは週末のアクセス数は平日の数分の1しかないため、平日と週末を分けて考えてみるのもいいだろう。そこで、平日と週末でそれぞれ平均を出すと、次のようになる。平日の平均訪問者数：6223人週末の平均訪問者数：888人これで、平日は6223人より少なければ「アクセスが少なかった」、週末は888人より多ければ「アクセスが多かった」と判断していいのだろうか。週末の平均はたしかに代表的な数値となっているが、どうも平日の平均がおかしい。グラフを見ても、ほとんどの平日は5000人以下と、平均よりも1000人以上少ないアクセス数になっている。よく見ると9月14日のアクセス数が非常に多い。この日は、あるページがヤフーニュースで紹介されたために、非常に多くの人がサイトを訪れていたのだ。ヤフー以外にも人

caretta2 2007/12/26

統計

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

統計に関するcaretta2のブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス