1 2 3 4 5 6 7 2 X Y X Y 8 9 X X X X i X i 10 11 12 13 Y = f(X) X Y f f 14 15 16 17 18 19 20 21 22 23 Yes Yes No No 24 25 k 26 27 28 29 30 31 32 33 34 KDD Process: Knowledge Discovery and Data Mining 35 36 37 38 39 40 41 42 43 44 45 46 47 48
1 2 3 4 5 6 7 2 X Y X Y 8 9 X X X X i X i 10 11 12 13 Y = f(X) X Y f f 14 15 16 17 18 19 20 21 22 23 Yes Yes No No 24 25 k 26 27 28 29 30 31 32 33 34 KDD Process: Knowledge Discovery and Data Mining 35 36 37 38 39 40 41 42 43 44 45 46 47 48
オープンソースの統計解析ソフトである『R』は、多様な統計手法での解析が可能かつ高度なグラフィックを備えており、数学だけでなく商業、医療など幅広い分野のデータ解析において役立てられています。本セッションでは『R』の基本の使い方から実際のデータマイニングの手法に至るまでを、データサイエンティストの視点からわかりやすくご紹介いたします。 ------ 『講師紹介』 山本 覚〔データアーティスト〕 データアーティスト株式会社 代表取締役社長 東京大学博士過程在籍時にアイオイクス株式会社のLPO事業に参画し、導入社数300社超のLPOツール「DLPO」の全アルゴリズムを開発。データマイニングを用いたウェブページの改善実績100社以上。論理化されたものはシステムで処理し、人が人にしかできない営みに集中する環境を作ることを理念として、データアーティスト株式会社代表に就任。Read less
20128月3 Python:決定木の作成 Pythonを用いたデータマイニング事例として決定木の作成をまとめる。 これまでの事例は、ある変数とある変数の一対関係が中心だった。それに対し本手法は、ある目的変数に対し複数の説明変数がどのように組み合わさった関係があるのかを探索するための手法である。 決定木の強み•弱みは以下のページが参考になる。 http://scikit-learn.org/stable/modules/tree.html 上記ページはpythonのデータマイニングライブラリのscikit-learnのもので、 機能の多様さでいえばこれが一番良さそうに感じる。 ただし、結果の可視化方法まで含めた調査がスムースにいかなかったため、 機能の数はやや劣るが内容は十分にあるOrangeライブラリを用いた例を紹介したい。 scikit-learnは精度勝負の時には自由度と種類があ
お知らせ1 このたび,拙著『統計学入門 I 生成量による実感に即したデータ分析』『統計学入門 II 尤度によるデータ生成過程の表現』(朝倉書店)が出版されました.本書で利用するスクリプトを下記URLよりダウンロードしてご利用ください。 【著者】 豊田秀樹 (2022年4月) 朝倉書店 統計学入門I スクリプト&正誤表 【著者】 豊田秀樹 (2022年8月) 朝倉書店 統計学入門Ⅱ 演習用ファイル・副読本 当研究室について 心理計量ゼミでは,心理学を基本としながら,理論と実践の双方に同程度の重きを置いて,データ解析マインドを養います. データ解析とは,客観的なデータから,現実的な要求に応えるための知見を得るための学問です.また情報化社会に対する豊かな感受性を養い,データ解析に必要な計算機の知識を身に付けます.以前は赤松記念1号室で活動していましたが,2004年4月から36号館7階にある赤松記
朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど
データマイニング (data mining)† すでに蓄積されている大量のデータから興味深く再利用可能な規則性を見つけ出すこと. Book/Advances in Knowledge Discovery and Data Mining では,狭義には,知識発見の中でデータのパターンを見つけるアルゴリズムのこととされる.しかし,最近ではこのプロセス全体を指すことが多い. 統計的推定などとの違いは,文献3の見方が興味深いと思う. 推定や学習では,正当性(Validity),有効性(Effectiveness),効率性(Efficiency)の三つの軸をとりあげ,それぞれを重視する研究が 統計,機械学習(人工知能),データベース の各分野になっているのではないかと指摘している. 実際のデータへの適用にはどの軸も大切で,バランスをとろうと心がけることがデータマイニングの特徴といえると思う.-- し
さて、前回リストの記事から半年ぐらい経ちましたよーということで、それ以降に発刊された書籍などを吟味した上で更新したリストをお届けしたいと思います。といっても引き続き今回のリストにも入っているものが多いので変わり映えしないかもですが。。。 前回同様、統計学や機械学習にまつわる学術的な知識を得るだけにとどまらず、ビジネスにおけるデータ分析のプロとして知っておきたい知識を得るために必要な書籍もリストに入れてあります。 確率論まわりの基礎理論についての書籍は僕自身が勉強途中なので割愛しました*1。またコーディングまわりの本は一旦割愛してあります。というか僕はエンジニアとは言い難い身なので(泣)、コーディングまわりや詳細な実装プロセスなどは適宜必要な本を読んで下さいということで。。。 そして改めての断り書きですが、これは「ある程度既に統計学や機械学習などに馴染みがあってそれなりにPythonでコード
概要 TwitterなどのSNSは、自分の興味ある話題を共有できるユーザのグループを見つけ、その人達とオススメ情報を共有するのが、メジャーな使い方でしょう。 したがって、私のようなコミュ症は、そもそもSNSに向いていません。 そこで本記事では、はてブユーザたちが形成する、 同じ話題(タグのグループ)に興味を持っている ユーザの集団と、 彼らが有用と判断した記事郡を、勝手に解析して紹介します。 人と話す必要はないので,安全安心です. また、そのユーザの集団の中でも特に、有用な記事を発掘してくるユーザのランキングも、合わせて記載します。 (名前出すのがまずかったら消します) データ自体は古いので、主に、お気に入り登録すべきユーザを発見するために利用して貰えたら幸いです。 解析手法(高校生向け)やデータの詳細は、最後の方を参照してください。 はてブのデータマイニング結果 このページには新着ブック
私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分が興味を持っている分野に関しては、レコメンドして欲しいと感じてます。 ありがたいことにはてなはAPIを公開しており、はてなブックマークの情報を比較的簡単に取得できます。そこでこのAPIを利用して自分に合った記事を見つけるようなレコメンド機能をRとPythonで作成してみたいと思います。 利用するデータは、はてなAPIを使って収集します。具体的には、はてなブックマークフィードを利用して自分のブックマークしているURLを取得し、そのURLをブックマークしているユーザをエントリー情報取得APIを用いて抽出し、そのユーザのブックマークしているURLを収集します。こ
先週月曜日の12月10日、僕が代表を務める株式会社ゴクロから、iPhone向けニュースアプリ『SmartNews』をリリースしました。公開直後から予想を超える反響があり、多くのブログやニュースサイトに取り上げていただきました。今もApp Storeの無料総合ランキング上位をキープしており、非常に良いスタートが切れたと思っています。 SmartNewsのレビューを読むと、アプリのUXを評価してくださっている方が多いと感じます。自分としてはもちろん、UXにも強いこだわりがあるのですが、UXと同じくらい、「どんな情報を配信するのか」という点にも思い入れがあるので、以下書きたいと思います。 「必要な情報を必要な人に届ける」ことを目指したCrowsnest 僕は、Webプログラミングを始めた2005年ごろから、「Webには膨大な情報が溢れているのに、その情報が必要なかたちで必要な人へ届いていない」と
(CNN) 米コンピューターサービス大手のIBM社が開発した人工知能「ワトソン」は2011年、クイズ番組「ジョパディ!」で人間のチャンピオンに勝利し、世界を驚かせた。 ワトソンは学習能力を持つコンピューターであり、数百万冊相当の書籍を「読む」ことにより、膨大な知識を収集・分析・創造できる。人工知能が読み込むテキストデータは今後も増える一方だ。 このような「読む機械」がもたらす革命は今後10年、私たちの生活をどう変えていくのだろうか。5つの未来を予想してみよう。 1.科学者を助ける 人工知能が科学的なテキストを読めるようになり、病気の治療や地球温暖化の解決に新たな突破口を開く。 アレン人工知能研究所で行われているプロジェクトでは、ワトソンに似たソフトウエアを開発中だ。コンピューターは、教科書から「学び」、質問し、結論を引き出せるようになるだろう。科学者を大いに助けるはずだ。
「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日本のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ
これは初めてこのブログに来た方々向けのトップ固定記事です。最新記事の更新状況に応じて随時更新されます。 はじめに 公式のプロフィールはLinkedInに掲載しております。 このブログの内容は個人の意見・見解の表明であり、所属組織の意見・見解を代表しません。またブログ記事の内容の正確性については一切保証いたしません。学術的・技術的コンテンツを求めて来訪された方は、必ず学術書や論文などのオーソライズされた資料を併せてご参照ください。むしろ僕自身の学習のプロセスを記録しているだけの備忘録的記事が多いため、誤りもまた多いはずです。後学のため、誤りを見つけた場合はコメント欄などでお知らせいただけると有難いです。 また、ブログの中で取り上げられているデータ分析事例・データセット・分析上の知見など全ての記述は、いずれも特別に明記されていない限りはいかなる実在する企業・組織・機関の、いかなる個別の事例とも
米グーグルが先月、カナダのAI(人工知能)研究所「DNNresearch」を買収したのに続き、今月は中国のグーグルとも呼べる百度(Baidu)が独自のAI研究所をシリコンバレーに設立した。 両者には共通項がある。それは「ディープ・ラーニング(Deep Learning)」と呼ばれる、最先端のニューラルネットワーク技術を研究することだ。他にもマイクロソフトやIBMなど巨大IT企業も、この分野の研究開発に力を入れていることで知られる。 ディープ・ラーニングについては、以前にも本コラムで簡単に紹介したことがあるが、これが今後のIT産業を大きく揺るがす重要な技術になることは間違いないので、今回はもう少し詳しく解説しよう。 半世紀以上の歴史を持つニューラルネットの一種 ディープ・ラーニングとは、要するに人間の頭脳を構成する無数の神経細胞のメカニズムを、従来よりも正確に模倣した新種のニューラルネットワ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く