タグ

ブックマーク / mjin.doshisha.ac.jp (2)

  • Rと集団学習

    集団学習(ensemble learning)は、決して精度が高くない複数の結果を統合・組み合わせることで精度を向上させる機械学習方法である。複数の結果の統合・組み合わせの方法としては、分類問題では多数決、数値の予測(回帰)問題では平均が多く用いられている。 集団学習では、異なる重み、あるいは異なるサンプルから単純なモデルを複数作成し、これらを何らかの方法で組み合わせることで、精度と汎化力を両立するモデルを構築する。 稿では、集団学習方法による、回帰・分類のアルゴリズムバギング(bagging)、ブースティング(boosting)、ランダム森(random forest)の基概念およびこれらのRのパッケージと関数を紹介する。 機械学習の問題では、学習によって回帰・分類を行うシステムを学習機械と呼ぶ。文献によっては学習機械を仮説(hypothesis)、分類器・識別器(classi

  • Rとクラスター分析(1)

    [連載]フリーソフトによるデータ解析・マイニング第28回 Rとクラスター分析(1) 1.クラスター分析とは 我々は、物事を整理整頓する際には、機能、形状などの側面から似ているものを同じのところに集めて、片付ける。これと同じくデータについてもデータ構造の側面から似ている個体を同じのグループに仕分けることが必要である場合がある。データサイエンスにおける分類のための方法は、学習(教師、訓練)データがある分類方法と学習データがない方法に大別される。 ここで言う学習データとは、どの個体がどのグループに属するかが既知であるデータである。グループの所属を示すデータは外的基準とも呼ばれている。学習データがある場合の分類方法は、どの個体がどのグループに属するかが既知であるデータから、分類に関するモデルを作成し、そのモデルに基づいて、グループの属性が未知であるデータを最も似ていると判断されるグループに割り当

  • 1