今日は、アクセス解析や統計の話を。Excelを使えばいろんなデータから相関関係を簡単に出せますが、だからといってそのデータが問題解決につながるとは限らないのです。 Excelには「CORREL」という関数があり、2つのデータ群について相関関係を簡単に出すことができます。しかし、この「相関関係」と「因果関係」を混同してしまっている例があります。統計ではごく基本的なことなのですが、基本的なことこそ大切なので、改めて解説しておきましょう。 「相関関係」とは、「ある値Aが増えた(減った)状態で、別の値Bが同様の変化を示していること」を意味します。また、ある値Aが増えた状態で別の値Bが減ることを「逆相関」といいます。 たとえば、アクセス解析データで、ある期間の訪問者数とPV数の間で相関関係を出すと、かなり高い相関性が見られるでしょう。つまり、訪問者数が増える状況では、同様にPV数も増えているのです。
リサーチ/データリテラシーはWeb担当者の必須スキルインターネットが生活や仕事に欠かせないものになってきた現在、私たちの周りには数字や調査データがあふれています。昔からあったテレビの視聴率や人口統計をはじめ、ネット利用人口や携帯利用者数、1日の平均ウェブサイト閲覧時間など、数え上げれば切りがありません。 でも世の中には、おかしいデータが山のようにあります。決算数字の粉飾もありますし、耐震強度の計算を偽装することもありました。自説を主張するために、ウソに限りなく近い数字を使うことは日常茶飯事です。 マスコミ、政府など信頼に足ると思われる情報ソースですらそうです。いや、むしろ彼らのほうが、自分の主張に近いデータを選択して使うことが多いかも知れません。お役所は自分の責任になるようなことにはしたくありませんし、マスコミは自分の主張に沿ったデータを集めてくるでしょう。 こうした環境のもと、Web担当
この場合に、たとえば「9999」と記入した回答があったらどうしましょう。回答者は1億円以上の年収があるので、こう表現したのだと思います(1億円を超える場合に、回答者を悩ませる点でもこの自由記入は、あまり良い例とは言えませんが、それは今回置いておきましょう)。 この場合は、この質問のこの回答だけを「外れ値」として集計から除く処理を行うという判断をすることがあります。世帯年収の単純平均を算出すると、この回答が平均値をかなり押し上げてしまうからです。 年収などの場合は、その回答の分布はなだらかな山の形を形成することが多いのですが、分布から極端に離れた値にごく少数の回答が存在することがあります。これを異常値として排除するのです。科学の実験などでもこういった処理を行うことがあります。 普通の調査では、中央値や最頻値を併用するとよい全体を代表する値という指標はいくつかあります。平均値は最も代表的な指標
「農薬公害の完全追放と安全な農畜産物の安定供給」を目指して、「大地を守る会」が設立されたのは1975年。以来、同会は、食や農、環境問題に関する市民活動にも積極的に取り組みながら、順調な発展を続けてきた。現在の消費者会員は約8万人、生産者会員は約2500人。消費者会員は、毎年1万人の新規入会があるという。 「株式会社大地」は、同会の流通を担当する法人会員であり、安全な農産物、畜産物、水産物、加工食品、雑貨等を消費者会員に届けることを役割としている。今回は、同社における「Clementine」を活用したデータマイニングの取り組みについてご報告する。取材にご協力いただいたのは、株式会社大地 営業本部 販売企画グループ 販売促進チームの前川隆文氏である。 「大地を守る会」は、農薬を使わない安全な農産物を作ったものの、なかなか売れなくて困っていた生産農家と、安全な農産物を求める消費者をつなぐ活動が発
マイナー商品でもヒット作と並ぶ市場規模になるという「ロングテール」。 実は「ベキ分布」としてネット以外の現実の経済現象にも数多く登場する。 新たな学問も誕生し、企業の販売戦略や金融技術にも影響しそうだ。 1日当たりのアクセス数が10億回を超えるヤフーの検索サービス「Yahoo! 検索」。膨大な数の言葉が時々刻々と検索されるため、頻繁に検索される「人気ワード」であっても全体に占める比率はごくわずかだ。 例えば、2007年3月28日の1日に検索された言葉のうち、最も検索された言葉の検索回数は、全体の検索件数の1%にも満たない。検索回数で上位の3200語の回数をすべて合計しても、全体に占める割合はわずか2割。逆に、1日に1回しか入力されないマイナーな言葉は全体の約7割にも上る。 検索された言葉を多い順に横軸に並べて、検索件数を縦軸に取ると、下図のように、右に裾野が伸びたグラフが描ける。これは「ロ
WWWで統計を学習しよう 検索系相談等|統計教育リンク|統計学用語集|case study(問題集)|統計学から分散分析・重回帰まで|総合的|特定分野 (統計教育・注意|研究法|歴史|測定|サンプリング|分布|検定力|meta-analysis|resampling|bootstrap|cross-validation|AIC, BIC, 情報量|nonparametric test|exact test|conjoint analysis|実験計画法・分散分析 |多変量解析|因子分析・共分散構造モデル|multi level|多次元尺度解析|グラフ化|本・論文案内 )|研究|雑誌|ソフト手引き(SPSS|SAS|S|LispStat|Stata|Statview|Epi Info|Excel)| <統計ソフト・統計学習用データ>|統計関係総合リンク|統計ソフト紹介関係|統計ソフト会社|共
* Use UTF-8 for character encoding. このページの文字コードはUTF-8を使用しています。 Updated: 2005-04-02 5:44 am 統計解析言語 R で多変量解析を行う ―英語コーパス学会第24回大会ワークショップ付録― 田畑 智司(大阪大学) 0. はじめに Rのダウンロード 日本のミラーサイト(1)筑波大学 Rのインストール Mac OS Xの場合 (群馬大学・青木先生によるインストールガイド) LinuxおよびWindowsの場合(多摩大学・山本義郎先生によるインストールガイド) Rのレファレンス・マニュアル 舟尾暢男氏によるR-tips集。素晴らしい入門書。 R-intro 日本語版(森 厚 氏による日本語訳) Rによる統計処理(上記の青木先生による) 1. データ 注意:以下4点のデータはタブ区切りになっていますので,コピー&ペー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く