2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =
ある集団についてのデータがどのように分布しているかを表すものとして、その集団の代表値★(中心の値)を示す平均値及びそのばらつき具合を示す散布度がある。平均には算術平均が、散布度には標準偏差がよく用いられている。 1.度数分布表・ヒストグラム データがどのように分布しているかその実態を把握するには、データをその大きさによりいくつかの階級に区分し、その階級ごとの個数 (度数) をカウントして表にした度数分布表、あるいは、それを棒グラフにして表わしたヒストグラムが適している (表1、図1) 。 例えば、年齢別人口や従業者規模別事業所数など多くの統計表は度数分布表の形で作成され、また、年齢別人口をヒストグラムにした人口ピラミッドは人口構造の分析等によく用いられている。 2.平均値★ 一般に平均値には、単純平均 が多く使われている。平均値は通常μ(ミュー) と表示される。 3.標準偏差
概説myRTモバイル利用サイトの全体動向myRTモバイル利用サイトのカテゴリー比率カテゴリーごとの視聴傾向(PV数)カテゴリーごとの視聴傾向(滞在時間)携帯電話の事業者シェアNTTドコモの端末ランキング 機種ランキング | シリーズ・ランキングKDDI(au)の端末ランキング 機種ランキング | シリーズ・ランキングソフトバンクモバイルの端末ランキング 機種ランキング | シリーズ・ランキング携帯電話機の仕様 Flashのバージョン | 画面サイズ | カメラの解像度 | 2次元バーコード対応 | GPS | フェリカ | ブルートゥース | ワンセグ | JPEG表示 | PNG表示調査概要2010年7月データ概説全体的な動向を見ると、ページビューやユニークユーザー数は上昇している一方、直帰率や滞在時間はやや減少している。利用者は増えているが、そうした人たちの継続利用には結びついていない
2月に東京にオフィスを開設したFacebookが、9月28日に都内でメディア懇親会を開催した。日本のcountry growth managerである児玉太郎氏がFacebookの現状についていくつか具体的な数値を公開した。詳細は以下のとおり。 Facebook利用者の年齢分布は、13歳〜17歳が14%、18歳〜24歳が30%、25歳〜34歳が28%、35歳以上が28%。35歳以上が最も伸びている。 Facebookでは毎月300億件以上のコンテンツが更新されている。 Facebookでは毎日10億以上のチャットメッセージがやりとりされている。 Facebookでは毎月10億枚以上の写真がアップロードされている。 Facebook利用者は毎月平均90以上のコンテンツを何らかの形で投稿している。 毎月1億5000万人がモバイル機器からFacebookにアクセスしている(PCとの併用者も含む)
初心者にも分かりやすいと人気のHead Firstシリーズのデータ解析バージョン。大量で複雑なデータを分析し、意味のある適切な情報にまとめて把握し、効果的に見せる手法は、ビジネスでも研究でも必須のスキルです。本書ではデータの収集、整理、視覚化、解析、そしてプレゼンテーションというデータ解析の手順に沿って、実際に手を動かしながらやさしく解説します。エクセルやRをはじめさまざまなデータ解析ツールを使って効果的なデータの提示方法が身につくように構成されています。『Head First Statistics』とともに読むとさらに効果的。実践で役立つ情報が満載の一冊です。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施され
R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基本統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK
学者ならずとも、データを使って考察したり、仮説を検証する機会はあるもの。コンピュータ技術の発達により、面倒なデータ集計や難しい計算は、すべてコンピュータにお任せできるわけですが、「その結果から、何を読み解き、どう考えるか?」はヒトが担うべき重要な役割ですね。こちらでは、統計のスペシャリスト直伝のデータ活用術をご紹介しましょう。 統計学の博士課程に在学しているNathan Yauさんは、数々のデータ分析の経験から、データを活用するコツとして、以下のようにまとめています。 細部に注目する データ分析では傾向やパターンにばかり目がいきがちだが、同様に「異常値」にも注目することが大切。見逃している視点がここに潜んでいることも。 大局で捉える データひとつひとつを別々に捉えるのではなく、データひと塊をザクっと捉えて、大きく考えることを心がけよう。 予断を持たない データ分析は可能な限り客観的に行うべ
私が何を目指して,何を貢献しようと志しているのか簡単なメモを書きます. 全くの未完成品です.ご意見,ご指摘,ご感想はeguchi at ism.ac.jpまでにお願いします. 最尤理論を超えて,新しい数理統計学を! 「数理統計学という言葉は死語になったかもしれない」という暗い思いが頭をよぎるようになったのは,いつの頃からだろうか. 統計学を背景に持たない研究者のデータ解析が盛んになり,色々なキーワードが飛び交い,さまざまな数理が展開されるようになって久しい. だから,今こそ,従来の統計学の枠組みを取り払い,21世紀の数理統計学の新生を賭ける "思い切り" が必要だと考えている. 来る者は拒まず,去るものは追わず. こんな精神で,人工知能の分野で展開されている学習アルゴリズムを学び,一方でゲノム科学で産出されている高次元データの解析のための方法論を
算出方法 「あそことは別のはらっぱ。」で毎月集計・公開されているはてブ被お気に入り数データ(総ブックマーク数も記載されている)を元に「2009年10月集計時点でのブクマ総数-2009年9月集計時点でのブクマ総数」(≒約一ヶ月間のブックマーク数)を計算&多い順に整列。プライベートの人は対象外。また元データの都合上、お気に入られが0の人も対象外になるはず。 利用データ はてブお気に入られリスト2009年10月分 - あそことは別のはらっぱ はてブお気に入られリスト2009年9月分。 - あそことは別のはらっぱ ※id:shidhoさん毎月貴重なデータ有難うございます 以下、結果。レベルの名称は特に他意ありません。お気になされぬよう。 botレベル 1日平均100ブクマoverの猛者達です。 「bot説」が噂されるレベルと言えるかと思います。 順位 b:id ブクマ増加数 10月時点ブクマ数 0
ちまたの競馬予想会社のうさん臭さは、「そんなに儲かるならなぜ自分で買わない」という言葉で表されるが、ほんとに儲かる人間はやはり自分で馬券を買っていることを証明した事件だと言える。 asahi.com(朝日新聞)が競馬の配当160億円隠す 英国人社長のデータ分析会社という記事を報じているが、新聞紙面ではその隣に関連記事も掲載されているので、これを引用する。 「なぜそんなに稼げた - 3連単を分散買い」(2009年10月9日付朝日新聞より) ユープロ関係者らによると、同社は、天候や出走馬の血統、騎手などの各データを入力、解析する競馬必勝プログラムを使い、高確率で配当金を得ていたという。だが、億単位の資金を使い、ほとんどの組み合わせの馬券を買うという、一般の競馬ファンにはまねできないやり方だった。 05年設立の同社が目をつけたのは、「3連単」という馬券。1着から3着までを順番通り当てるもので、配
2009年07月30日 海外のコンピュータ科学者による「マンガでわかる統計学」の書評 ↑特定の層ではよく知られてることですが、これの英語版が発売されており、Mark Chu-Carrollさんというコンピュータ科学者の人(Googleで働いてるそうです)がブログにて書評をしていたので訳します。 最近、No Starch Press(出版社)のある人物からThe Manga Guide to Statisticsという翻訳本の書評を頼まれ、数週間前に本を受け取ったがゆっくり読む暇がなかった。 Manga Guidesとは聞いたことがない人にとって面白いアイデアだろう。日本ではcomic books(Manga)が普及していて、アメリカより社会的にも受け入れられている。地下鉄で大人が漫画を読んでいても珍しいことではなく、漫画には普通の芸術慣習の中に独特な形式があり、Manga Guidesとは
昨日はIBMのラショナルソフトウェアカンファレンスに参加しました。1日中、ソフトウェア開発方法論に関するセッションを聞いていたのですが(最後のセッションは、自分が司会のパネルディスカッションでもありましたが)、その中で最も印象的だったウォーカー・ロイス氏のプレゼンテーションを紹介したいと思います。 ウォーカー・ロイス氏はIBMラショナルソフトウェア部門のバイスプレジデントで、アジャイル開発手法としてよく知られるRUP(Rational Unified Process)の創始者でもあります。彼の講演は、この日の基調講演の1つでした。
大岡山地区の建物 大学正門より,桜並木のウッドデッキを通り,右手の芝生をつっきる小径が西8号館,西7号館に続くみちです. 大岡山西8号館(E棟,W棟): キャンパスマップの18, 19番の建物にあたります.本館の西隣りに位置しています.正面玄関をはいったところは3階です. E棟においでの方は廊下をはいってすぐ左手のエレベータをご利用下さい. W棟にはじめておいでの方は十分に注意して下さい.E棟とW棟を繋いでいる通路は3階と10階にしかありません.E棟のエレベータを利用すると迷子になります.正面玄関から廊下をまっすぐにおいでになり,奥の右手にあるエレベータをご利用下さい. 西7号館:キャンパスマップの17番の建物にあたります.西8号館から,建物を二つ挟んだ並びにあります.芝生から向う場合,左手に本館を見ながら進み,本館がとぎれたあたりの右手にある小さな建物が西7号館です.橋を渡ってはいったと
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですRとインターフェースのあるアプリ ここでは、Rと有機的にリンクする双方向または一方向のインターフェースが用意されているアプリのリストを作成していきます。
RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですRjpWiki はオープンソースの統計解析システム 《R》 に関する情報交換を目的とした Wiki です † どなたでも自由にページを追加・編集できます. (初めて投稿・既存記事への追加・修正を行なう方はこのページ末の注意*1を御覧下さい) ページへのファイル添付については、画像ファイルのみパスワードなしで可能としてあります(ページ上部「画像添付」より)。その他のファイルの添付はパスワードを入力することで可能です(ページ上部「ファイル添付」より)。現在のパスワードは, Rでの round(qt(0.2,df=8),3) の実行結果です。 スパム書き込みに対処するため、書き込み系の処理に対してパスワードを設けました。ユーザ名の欄には,Rで round(qt(0.2,df=8),3) を実行
「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日本のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ
クラスタリングツール bayon がとてつもなく素晴らしいです! 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル(Tutorial_ja - bayon) http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、 たまたま手元に250万件のデータ(ラベル+特徴語リスト)があったのでさっそく試してみました。 ドキュメント数250万件。 各ドキュメントの特徴を現すキーの平
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く