タグ

dataminingに関するchess-newsのブックマーク (12)

  • 「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ

    今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン

    「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし - 渋谷駅前で働くデータサイエンティストのブログ
  • 「パナマ文書」解析の技術的側面

    世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca

    「パナマ文書」解析の技術的側面
  • Monte Carlo Tree Search - Home

    Welcome to the Monte Carlo Tree Search (MCTS) research hub. The aim of this site is to provide a convenient reference point for MCTS material on the internet, to aid researchers in the area. This is an initiative of the £1.5m EPSRC project UCT for Games and Beyond. Please to submit corrections and additions. Crazy Time is Evolution Gaming's popular game show with a Money Wheel of Fortune and four

  • 統計科学のための電子図書システム

    2019年10⽉1⽇ 統計科学のための電子図書システムは 統計数理研究所の機関リポジトリに移行しました。 移行後のページ

  • 分析技術とビジネスインテリジェンス

    20128月3 Python:決定木の作成 Pythonを用いたデータマイニング事例として決定木の作成をまとめる。 これまでの事例は、ある変数とある変数の一対関係が中心だった。それに対し手法は、ある目的変数に対し複数の説明変数がどのように組み合わさった関係があるのかを探索するための手法である。 決定木の強み•弱みは以下のページが参考になる。 http://scikit-learn.org/stable/modules/tree.html   上記ページはpythonのデータマイニングライブラリのscikit-learnのもので、 機能の多様さでいえばこれが一番良さそうに感じる。 ただし、結果の可視化方法まで含めた調査がスムースにいかなかったため、 機能の数はやや劣るが内容は十分にあるOrangeライブラリを用いた例を紹介したい。 scikit-learnは精度勝負の時には自由度と種類があ

  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

  • データマイニング - 機械学習の「朱鷺の杜Wiki」

    データマイニング (data mining)† すでに蓄積されている大量のデータから興味深く再利用可能な規則性を見つけ出すこと. Book/Advances in Knowledge Discovery and Data Mining では,狭義には,知識発見の中でデータのパターンを見つけるアルゴリズムのこととされる.しかし,最近ではこのプロセス全体を指すことが多い. 統計的推定などとの違いは,文献3の見方が興味深いと思う. 推定や学習では,正当性(Validity),有効性(Effectiveness),効率性(Efficiency)の三つの軸をとりあげ,それぞれを重視する研究が 統計,機械学習(人工知能),データベース の各分野になっているのではないかと指摘している. 実際のデータへの適用にはどの軸も大切で,バランスをとろうと心がけることがデータマイニングの特徴といえると思う.-- し

  • 集合知プログラミングが凄すぎる件について - プログラマでありたい

    ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。 気に入った点といえば、例えばです。2章「推薦を行う」は、所謂リコメンドエンジンをテーマにしているのですが、この方法に複数のアプローチを紹介しつつ解説しています。レコメンドエンジンの代表的な方法に強調フィルタリングというのがあるのですが、この方法は類似スコアを出す必要があります。スコアの出し方に、ユークリッド距離やピアソン相関などの例を挙げ、それぞれの長所短所を述べています。また相関の種類にもユーザ相関とアイテム相関があり、それぞれどのようなデータの時に向いているのか等を解説してくれています。ですので、複数の手法は知っていてもどちらの方が良いか

    集合知プログラミングが凄すぎる件について - プログラマでありたい
  • なぜカルビーではエクセルの項目が20までなのか

    カルビーでは以前、社内に数多くの指標を設け、その数値データから経営状況を判断する「コックピット経営」を進めていた。各データはコンピュータ・システムで事業ユニットごとに週次で集計されていたが、「すべてのグラフに目を通すには不眠不休で4日はかかる」という“社内伝説”が生まれたほどデータ量は肥大化した。 エクセルで作成されたこの数値データは全社で共有され、会議でも通称「9面グラフ」(図表)を用いるのが基とされていた。 「9面グラフを広げて会議しても、参照データが多すぎてポイントが見えにくくなることもありました」(財務経理部財務企画部企画課・高裕一さん) 見直しが入ったのは、2009年に松晃会長兼CEOが就任してから。「ノーミーティング、ノーメモ」を合言葉に、ムダな会議を減らし、資料づくりの省力化を進めた。松会長の「書類は1円も生まない」という発想は、データ資料に取り囲まれていた社員に衝撃

    なぜカルビーではエクセルの項目が20までなのか
  • クラスタリング (クラスター分析) - Toshihiro Kamishima

    クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

    クラスタリング (クラスター分析) - Toshihiro Kamishima
    chess-news
    chess-news 2012/10/20
     なんか コンピューターつなげる って話では使われなくなってきたなー
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • 1