タグ

ブックマーク / mjin.doshisha.ac.jp (6)

  • Rとクラスター分析(1)

    [連載]フリーソフトによるデータ解析・マイニング第28回 Rとクラスター分析(1) 1.クラスター分析とは 我々は、物事を整理整頓する際には、機能、形状などの側面から似ているものを同じのところに集めて、片付ける。これと同じくデータについてもデータ構造の側面から似ている個体を同じのグループに仕分けることが必要である場合がある。データサイエンスにおける分類のための方法は、学習(教師、訓練)データがある分類方法と学習データがない方法に大別される。 ここで言う学習データとは、どの個体がどのグループに属するかが既知であるデータである。グループの所属を示すデータは外的基準とも呼ばれている。学習データがある場合の分類方法は、どの個体がどのグループに属するかが既知であるデータから、分類に関するモデルを作成し、そのモデルに基づいて、グループの属性が未知であるデータを最も似ていると判断されるグループに割り当

  • フリーソフトによるデータ解析・マイニング[第1回]

    1.データ解析・マイニングとツール データ解析とは、データに内在する構造を明らかにし、データから情報を見つけ出す手法や方法論の体系である。近年、「データマイニング」という言葉をよく耳にする。データマイニングとは、膨大なデータの山から宝物(情報)を掘り出す(採鉱、mining)技法や方法論の体系である。両者はデータを研究・処理対象とし、データから情報を見つけ出すことを目的としている。 言葉の由来から見ると前者は、統計学に基礎をおいたデータの処理であり、後者はコンピュータの資源に主眼をおいたデータの処理であり、それぞれの力点には異なりがある。しかし、データ解析でもコンピュータの資源を最大限に活用しなければならないし、データマイニングでも従来のデータ解析の理論や方法を用いていることから、稿では、特別な説明がない限り、同一の概念として扱う。 データは数値データ、文字データ、音声データ、画像・映

  • 60.html 統計的テキスト解析(5)~統計法則と指標~

    大量のテキストに使用された要素の頻度を集計し、そのデータを値が大きい順に並べると、その順位(ランク)と頻度の間には次の法則があることがわかっている。 順位×頻度≒定数 この法則を「ジップの法則」と呼ぶ。ジップ(Zipf)は、この研究を1929年から始めたそうである。その結果に関連する主な著書として、Zipf(1935, 1949)がある。当初はPrinciple of Least Effort 用語を用いていた。 ジップの発見した法則は、単語の使用頻度と順位との関係から導き出した法則であるが、言語に限らず何らかの頻度と順位との関係に適用される。 頻度、順位、定数をそれぞれf,r,cで表すと、ジップの法則は次の式で表される。定数cは、データから求めることになる。 表1に、福田総理の所信表明演説文における単語を出現頻度が高い順に並べ、その順位と単語の頻度データを示す。横軸をランク、縦軸を頻度と

  • Microsoft Word - 第25因子分析.doc

    [ 連載 ] フリーソフトによるデータ解析・マイニング第 25 回 R と因子分析 1 .因子分析とは 因 子分析(factor analysis)は、多くの変数に より記述された量的データの分析方法として、 1904 年にスピアーマン(Spearman)によって提 案された。 因子分析で扱うデータの形式は主成分分析と 基的には同じであることから、同じ場面に利 用されることが多いが、手法の開発の出発点は 全く異なる。 主成分分析では、変数の間の相関関係を用い て、無相関の合成変数を求めることで多くの変 数を少ない変数に縮約するが、因子分析は、変 数の間の相関関係から共通因子を求めることで、 多くの変数を少数個の共通因子にまとめて説明 することを目的としている。 因子分析は、観測データにおける変数の間の 関 連 成 分 を ま と め た も の を 共 通 因 子 (common

  • Microsoft Word - 09.html

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • 1