タグ

statisticsに関するbabydaemonsのブックマーク (5)

  • 二つの文字列の類似度 - ktr_skmtの日記

    雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理 また、原田実先生が開発された意味解析システムSAGEも日語文の類似性を測る技術です。 文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、 正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正

    二つの文字列の類似度 - ktr_skmtの日記
  • いろいろな都道府県別データ

    [追記] 統計センターのSSDSE(教育用標準データセット)にいろいろな都道府県別・市区町村別データがまとめられています。 都道府県名は1973年のJIS X 0401「都道府県コード」で01の北海道から47の沖縄県までの並び順が定められている。Wikipediaの全国地方公共団体コードも参照。総務省の全国地方公共団体コードページには、これに「000」とチェックディジットを付けたもの(北海道なら「010006」)が載っている。 kenmei = c("北海道", "青森県", "岩手県", "宮城県", "秋田県", "山形県", "福島県", "茨城県", "栃木県", "群馬県", "埼玉県", "千葉県", "東京都", "神奈川県", "新潟県", "富山県", "石川県", "福井県", "山梨県", "長野県", "岐阜県", "静岡県", "愛知県", "三重県", "滋賀県

    babydaemons
    babydaemons 2011/01/07
    これは便利!
  • ゴンペルツ曲線

    独立変数は,1から始まる連続する整数とする。従属変数は全て正の値でなければならない( 0 も不可 )。 注1: より妥当なあてはめを行う場合には,非線形最小二乗あてはめを行う。 注2: データが飽和点に達していない部分のみ( 指数的な増加部分だけ )の場合には,あてはめに失敗する場合がある。このような場合には非線形最小二乗法によるあてはめを行う。 ゴンペルツ曲線を表す $(1)$ 式の両辺の対数をとると,$(2)$ 式のようになる。 \[ y = a\ b^{\exp(-c\ x)} \tag{1} \] \[ \log y = \log a+\log b\ \exp(-c\ x) \tag{2} \] ここで,Y = log y,A = log a,B = log b とおくと( 3 )式のようになる。 \[ Y = A+B\ \exp(-c\ x) \tag{3} \] $(3)$ 式

  • FastICA

    Aalto.fi sci.aalto.fi cs.aalto.fi Independent Component Analysis (ICA) and Blind Source Separation (BSS) The FastICA package for MATLAB The FastICA package is a free (GPL) MATLAB program that implements the fast fixed-point algorithm for independent component analysis and projection pursuit. It features an easy-to-use graphical user interface, and a computationally powerful algorithm. Download sof

  • Excelのひどい話です!

    babydaemons
    babydaemons 2009/12/13
    M$のプロパーって数値解析習ってないの?せめて統計関係の関数のPMくらい数学系出身者にすればよかったのに。この程度の数値解析の常識は工学屋でも知ってるぞw
  • 1