タグ

ブックマーク / mjin.doshisha.ac.jp (6)

  • 60.html 統計的テキスト解析(5)~統計法則と指標~

    大量のテキストに使用された要素の頻度を集計し、そのデータを値が大きい順に並べると、その順位(ランク)と頻度の間には次の法則があることがわかっている。 順位×頻度≒定数 この法則を「ジップの法則」と呼ぶ。ジップ(Zipf)は、この研究を1929年から始めたそうである。その結果に関連する主な著書として、Zipf(1935, 1949)がある。当初はPrinciple of Least Effort 用語を用いていた。 ジップの発見した法則は、単語の使用頻度と順位との関係から導き出した法則であるが、言語に限らず何らかの頻度と順位との関係に適用される。 頻度、順位、定数をそれぞれf,r,cで表すと、ジップの法則は次の式で表される。定数cは、データから求めることになる。 表1に、福田総理の所信表明演説文における単語を出現頻度が高い順に並べ、その順位と単語の頻度データを示す。横軸をランク、縦軸を頻度と

    yuiseki
    yuiseki 2013/03/16
  • 統計的テキスト解析(9)~テキストにおける情報量~

    データが、ある母集団から得られる確率を尤度(ゆうど,Likelihood)と呼ぶ。1枚のコインを100回投げた結果、{表}が48回現れたとする。もし、各面が現れる確率が1/2であることがわかっていれば、48/100≒0.5であるから、{表}が現れる尤度は1/2になる。しかし、ゆがみがあるコインの場合は、ゆがみに関する規則(あるいは関数)を考えることが必要である。ゆがみがあるコインの各面が現れる確率を左右する要因をθとすると、尤度はθの関数である。θをパラメータと呼ぶ。ポアソン分布の場合はλ、正規分布の場合はμ,ρがパラメータθである。 確率は、母集団において事象が起こる率であり、尤度は、標データと仮説のもとで得られた、事象が母集団で起こりそうな度合(尤もらしい度合=尤度)である。ここでの仮説は、データが従うと仮定したモデルである。 データを統計的に分析する際は、しばしば標データを用

  • Rと時系列(1)

    時間とともに変動する現象に対して時間の順序で測定・観測した結果の記録を時系列データと言い、略して時系列(time series)と言う。時系列データは多くの分野で様々な目的で取り扱われる。日常の社会生活の中でよく見受けられるものには、心電図や脳波のような医療データ、気温や気圧のような気象データ、株価および為替レートのような金融・経済データなどがある。 時系列データは、常に変動を伴うものである。その振る舞いを統計的に分析し、データ変動の特徴を捉え、現象の解明と将来の変動を予測・制御しようとするのが時系列データ分析の主要な目的である。 ちなみに、2003年ノーベル経済学賞の受賞の対象となった内容は、経済時系列分析に関するものである。

  • アソシエーション分析(1)

    アソシエーション分析(associations analysis)は、百貨店や店舗などで集めている表1のようなトランザクションデータを活用するために、バスケットの中の商品間の関連性について分析を行う方法である。アソシエーション分析は、表1に示すような、トランザクションデータから、頻出するアイテムの組み合わせの規則を漏れなく抽出し、その中から興味深い結果を探し出すことを主な目的とする。 アソシエーション分析は、1990年代初めに英国の有力百貨店マークス&スペンサーの店舗で集めているデータの活用に関して相談を受けたことをきっかけとして、IBM研究所が研究を始め、Apriori(アプリオリ)というアルゴリズムを開発したと言われている。Aprioriアルゴリズムは、巨大なデータベースからアソシエーションルール(associations rules)を抽出することを実現し、データマインニングの実用

    yuiseki
    yuiseki 2011/09/19
  • [連載]フリーソフトによるデータ解析・マイニング第61回 統計的テキスト解析(6)~語のネットワーク分析~

    [連載] フリーソフトによるデータ解析・マイニング 第61回 統計的テキスト解析(6)~語のネットワーク分析~ 1.ネットワーク分析とは ネットワーク分析は、社会学や通信ネットワークなどの分野で多く用いられている。数学のグラフ(Graph)理論に基礎を置いている。したがって、分野によってはグラフ分析とも呼ぶ。ネットワークは、頂点(V: Vertex)と辺(E: Edge)を基構成要素とする。頂点を「点」「ノード」、辺を「線」とも呼ぶ。ネットワークは、線で点と点の関係を示す。線が方向性を持つグラフを有向グラフ(Directed Graph)、線が方向性を持たないグラフを無向グラフ(Undirected Graph)と呼ぶ。図1に、有向グラフと無向グラフの例を示す。

  • JIN'S PAGE

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • 1