サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
takenaka-akio.cool.ne.jp
| Top Page | 雑多ないろいろ | 大統計大マンダラ (by 三中信宏氏) >HTML版 曼荼羅 (竹中による HTML化) Updated on 2003-10-10 大統計大曼荼羅とはなにか 三中信宏さん (農業環境技術研究所)の 租界Rの門前にて――統計言語「R」との極私的格闘記録 のなかに, 大統計大曼荼羅と題した図が掲載されています (> 画像 ). この曼荼羅の心は「租界Rの門前にて」中の 前口上――統計学概論 で説かれています. 以下は同文書からの引用です. …統計学をはじめて学ぶ者にとって、いま学んでいる手法が統計界 の中のどこに位置しているのかをまったく知らされないまま、数式やソフトをいじらされると いうのは、教育上のみならず精神衛生上もよいはずがありません。 この点で統計学ユーザーに 望みたいのは、統計学の世界の鳥瞰です。できるだけ広く遠く生物統計学の裾野を見
| Top Page | プログラミング | R 自動化 目次 | 索引 | 前へ | 次へ | ※このページは,Perl や Ruby などのスクリプト言語から R を呼び出す際に 必要な情報を説明しています.こうした言語の知識がないと意味不明かも知れませんが, その場合にはそもそもここで書いた知識を使うことはないでしょう. ※実行環境としては Windows のコマンドプロンプトを想定していますが, Unix 系OS の仮想端末でもほぼ同様のことができるでしょう. R の入出力画面を経由しないことのメリット R での作業を自動化するにあたって,GUI (R の入出力ウィンドウ)での手作業が じゃまになることもあります. GUI を経由せず, Perl や Ruby といったスクリプト言語のプログラム中で R のプログラムの実行も制御できれば,さらに自動化の幅は広がるでしょう. C++
| Top Page | プログラミング | R 自動化 目次 | 索引 | 前へ | 次へ | 高速かつ柔軟にたくさんの仕事をしてくれるプログラムを書くには, 繰り返しと条件分岐の構文はなくてはならないものです. ほぼすべてのプログラミング言語は,繰り返しと条件分岐の構文を持っています. R も例外ではありません. この章では,条件分岐と繰り返しの使い方を練習します. 次の章では,条件分岐と繰り返しを使って,より柔軟で汎用性の高い 作図プログラムを書いてみます. 条件分岐と繰り返しの構文 条件分岐 まずは条件分岐からはじめます. ある条件が満たされるかどうかによって,その後の処理を変えるのが条件分岐の構文です. R では,以下のような ifをつかった構文が用意されています. # 擬似コード.このままでは動かない. if (条件) { 条件が満たされたときに行う処理 } else { 条件
| Top Page | プログラミング | R 自動化 目次 |
R をはじめる R はフリーですので,だれでも無料でダウンロードして使うことができます. R の使い方の情報は,ネット上でも書籍でも,どんどん増えています. ひとつだけあげるとしたら,日本の R ユーザたちが育てている Wiki サイト, RjpWiki. 多量の情報が集積されています. 他の有用なページへの リンク集 も充実しています. R 初心者のかたは,ここの R習得段階別厳選リンク集にもあげられている, R-Tips (舟尾さん) からはじめるのがよいでしょう. いままでまったく R の経験がないなら,R-Tips の基本知識篇だけでもながめてから こちらのページに戻ってきて,そのあとは適宜いったりきたり していただくとよいかと思います. また,以下のページのなかでも頻繁に「詳細は R-Tipsのこのページを」と,R-Tipsへの リンクを設定してあります. R-Tips は包括的
X, Y, Z 座標という3つ一組のデータがたくさんという構造ですから, 「要素数3(X, Y, Z 座標)の配列」の配列が作れたら便利そうです.でも, 配列の個々の要素はスカラーでないといけないという文法上の制約があり, 残念ながら「配列の配列」は作れません. もうひとつ例を出します. 2ケ所の調査地での生物相の調査データから,共通種を探し出したいとします. ほんとはデータをファイルから読み込むのがそれっぽくてよいのですが, ここは簡単のためにプログラムにじかに書きます. # qw( ) については前のページで解説したばかり. @species_list1 = qw(シーラカンス ヒメシーラカンス エゾシーラカンス); @species_list2 = qw(ヒメシーラカンス ヤンバルシーラカンス ケシーラカンス); &show_common(@species_list1, @speci
| Top Page | プログラミング | 日本生態学会第55回大会 自由集会 「データ解析で出会う統計的問題 -- R プログラミングの基礎」 R で自動作図 − どんな絵でも,何十回でも,何百枚でも 2008年3月(福岡)の日本生態学会で開催された自由集会 (企画者: 久保さん, 粕谷さん) Rによる自動作図についてお話をしました. このページはその時の資料などを集めたものです. 当日の発表資料関係 ◎当日の投影資料(一部、誤りを訂正したもの)の PDF ファイル ◎実演で使ったデータファイル (Excelファイルと, TAB区切りテキストファイルにしたもの). ただし,なるべく自分のデータで試すことをお薦めします. 張り合いが違いますから. ◎文字列を規則的に生成するプログラムの例(file_names.R). 実行方法はプログラム中のコメントで説明してあります. ◎円弧描画関数の
プログラムでグラフを描くメリット データを表のまま眺めていたのでは,なかなか特徴はつかめません. まずはグラフを描いてじっくり吟味すると,おもしろいパターンが見えてくる かもしれません. R は,統計解析関数が豊富に用意されているだけでなく,グラフを描く機能も充実しています. ごくごく簡単な命令で '適当に' 図を描いてくれる関数がある一方で, 細かいところまで思うままに制御して描画することも可能です. RjpWiki のページ一覧中の グラフィックス参考実例集 のあたりをあちこちながめると,じつに多彩なグラフが描けることが分かるでしょう. 地図だって描けます (たとえば Rmapを使った地図表示を参照). プログラムで図を描くのは,マウスなどで手作業するのに比べて めんどうそうな気がします.でも,一度プログラムを書いてしまえば 何枚でも同じフォーマットで描けますし,たくさんのデータファイ
生態学会50回大会(つくば国際会議場)運営メモ 文責:竹中明夫(50回大会実行委員長) これまで,生態学会大会の運営についての経験と知恵はほとんど継承されておらず, 毎回担当者がほぼゼロから考えて運営してきたようです. これではいかにも効率が悪いので,つくばでの第50回大会の終了後に, 実行委員会のメンバーが各分担業務についての経験と反省をメモにしました. これらをもとに竹中が作製したのがこの文書です. どれだけ一般性があるか分かりませんが, つくば大会ではこうやった,つくば大会の反省でこう考えた,ということを中心に 書いています. これからの大会運営の参考にしていただければさいわいです. また,今後の経験にもとづいて補遺・改訂がなされ,しっかりしたマニュアルにまで 育っていくことを勝手に期待しています.
R でプログラミング:データの一括処理とグラフ描き 8. 条件分岐と繰り返しを使って柔軟に描画 この章では,条件分岐と繰り返しを使って,前に作った作図プログラムをさらに 柔軟なものにしてみます.3地点のデータがあるとか, 登場する生き物の種類は2種類だとか,はじめから決めてしまったプログラムではなく, 読み込んだデータからこういう情報ととりだして, それに応じてグラフを描くようなプログラムにします. 温度グラフの改良:データの内容に応じて描画 まず,毎日の日平均気温1年分のデータのグラフを描くプログラムを改良します. 改良点は, 軸の範囲を,データの値の範囲に応じて決める 何地点あっても対応できる の2点です. データの値の範囲に応じて軸の範囲を決めるのは,前の章の最後に 紹介した range で簡単にできます. 温度のデータ 'temperature.txt' の1列目は日付(初日から何
消去せずに上書き 座標系の設定というのは,横軸と縦軸それぞれの最小値,最大値を いくつにするかを決めるということです. 高水準作図関数は,与えられたデータの値の範囲から,それらがうまく おさまり,かつ軸の両端が中途半端な値にならないように,座標系を 設定してくれます. 高水準作図関数は,ふつうは前のグラフを消して新しい図を書きます. けれども,描画前に par(new=T) として,グラフィックパラメータ new にT(真) を設定すると, まっさらな作図デバイスが用意されたものと思って,消去作業をしません. ただし,そこに何が描かれているかはいっさい関知しない(なにせ白紙だと思っている)ので, 前の作図のときの座標系も知りません. ですから,同じ座標系でプロットを重ねたいなら,座標系を明示的に指定してやる必要があります. <練習> 前のページで, t <- read.table('tem
「もの」を表すいくつかのデータをひとまとめにする 配列は,同じような種類のデータがたくさんあるときにそれをまとめるのに便利でした. たくさんの木の高さのデータ,連続測定している温度のデータ,たくさんの生き物の 名前のリストなど,いくらも例を考えることができます. では,たくさんの木の種名と高さと太さと位置( x, y 座標)のデータがあったら, どんなデータ構造で表現したらよいでしょうか. あるいは,ニホンザルの群れの一頭一頭の性別,年齢,(人間がつけた)名前, 母親の名前,父親の名前,配偶者の名前,体重,群れの中での地位,子供の数の データがあったら,どう表現しましょう. はたまた,学会の大会参加申し込みデータ1140人分,それぞれ 参加者の受付け番号,名前,よみ,所属,住所,メールアドレス,懇親会参加, 発表の演題のデータがあるとしたら? こんなのとき,種名の配列と高さの配列と太さの配
読み手にも書き手にもひろがる世界 便利な世の中になったもので,なにか知りたいことがあったらまずネットで 検索してみると,たちまちにして必要な情報が得られたり, そうではなくてもなんらかの手がかりが見つかったりします. つい先日も,人間ドックで「ひょっとして緑内障の可能性がある」 と言われてまずやったことは,「緑内障」をキーワードにして Google で検索してみることでした. はたして, 日本眼科医会 目の健康情報 など,いくつもの参考になるページがみつかりました. (なお,眼科医での検査の結果,緑内障の心配はないことが分かりました) 利用者から見て情報へのアクセスが容易になったということは, 情報の提供者の側から考えると人に見てもらいやすくなったということです. ネット上で公開されている情報のなかでも,これは役に立つ,おもしろい, というものは人から人へと伝えられ,他の人のページからもリ
別の文章 で,学会での質疑応答のやりかたについてちょっと触れました. 多少は重複するところもありますが, この文章では,私が何を考えてどのようなことを質問しているのかを, もう少し詳しく書いてみます. 必ずしも「質問のすすめ」ではないのですが, ひょっとして学会やセミナーの初心者の方などが質問をする際の参考になれば 嬉しいです. なぜ質問するのか 私は会期が3日間の学会に行くと10回前後は質問しています. (←これは口頭発表だけの大会の場合です.最近はポスター発表が多いので状況は変わりましたが,ポスターの説明をしてもらったら必ず何か質問や意見を言うことにしています). セミナーでも,ほとんどの発表に対してなんらかの質問をします. 私にとって質問には3つのメリットがあります. まず,発表者とのやりとりを楽しめることです. 研究が楽しくて研究者をやってる身としては, 研究をネタにした会話ができ
メタ文字 メタ文字は,その文字自体を意味するのではなく,特別な意味を持つ文字です. メタ文字を「まんま」の意味で使いたいたきには,前に \ を付ける必要があります. メタ文字 意味 例
全天写真解析プログラム CanopOn 2 Updated on 2007-05-17 CanopOn 2 は何をするプログラムか CanopOn 2 は,Windows 上で動作する全天写真解析システムです. 魚眼レンズを使って撮影した全天写真(画角180度)の画像イメージを読み込んで解析します (>サンプルイメージ). 機能は以下の4つです. 全天写真の画像イメージを細かく区画分けして,それぞれの区画ごとの空隙率をファイルに出力する 平均的な空隙率や,空の散乱光の分布に応じた平均的な光透過率を計算して表示する. 緯度,月,日を指定して,一日のうちの太陽からの直射光の透過時間を計算する. 時刻ごとの直射光の透過の有無をファイルに出力する. 上層の障害物の光透過性を,空の光の分布や,太陽の位置,光を受ける側の3次元構造などと どのように組み合わせて,どう解析し,何を求めるかは,利用者の問
R でプログラミング:データの一括処理とグラフ描き 11. データファイルの順次処理:ファイル名のいろいろな決め方 まずは前の章の復習です.いくつものデータファイルを読んで処理する場合の基本的な 流れは, for (...){ # ファイルごとの繰り返し ファイル名を設定する. ファイルの内容を読み込む. 読み込んだデータを使ってなんらかの処理をする. } とうものでした.前の章では,読み込むデータファイルの名前を プログラム中に書き並べるという素朴な方法をためしてみました. この章では,ほかの方法を紹介します. ファイル名を規則的に生成する ファイル名が規則的についているなら,プログラムのなかで生成することができます. こういうプログラムが書きやすいように,データファイルを作る段階からファイル名に 工夫をしておくとよいでしょう. プログラム中でのファイル名生成には, sprintf が活
よいプログラムはよいデータ構造から アルゴリズム(計算手順)+データ構造がプログラムだと言われます. アルゴリズムを考えることだけではなく,データ構造の設計も プログラムの設計の重要な要素です. データ構造とは,「複数のデータを結びつけて管理するときの,まとめ方の構造」 とでも言ったらよいでしょうか.たとえば,配列は複数のデータを順番に並んだ ものとしてまとめて管理するひとつのデータ構造ですし,ハッシュは キーになる文字列とそれに対応する値というペアを,順不同でまとめて 管理するデータ構造です. 配列もハッシュもなしでプログラムを書くとなるとどんなに不自由かを考えれば, データ構造の重要性は想像がつくでしょうか. 表計算ソフト(Excelなど)は,2次元配列というデータ構造が基本になってますね. では,配列とハッシュだけ(あるいは2次元配列だけ)あればすべて済むかというと, そんなことはあ
| Top Page | 雑多ないろいろ | 曼荼羅トップ | 額縁に入れて,朝な夕な拝みませう(御利益,御利益) →ついでに→ あなたもきっと描ける統計まんだら! 大統計大マンダラ 超極私的統計相姦概観図 (by 三中信宏) or, 統計人生スゴロク 身にしみる… Copyright (c) Nobuhiro Minaka 2000 ええい,ひかえおろう! この凸のご紋が眼に入らぬか! 由緒正しき正規分布帝国 ↑ 中心極限定理 (またの名を「最終兵器」) ↑ 二項分布,ポアソン分布 実は 激闘バトルロイヤル! Neyman-Pearson,Fisher,Baysians …登場! 入場無料 こまかいことにすぐこだわる アブナイことに手を出さない ノンパラなんか大ッキライ! 推定・検定論 単回帰分析 ↓
配列のリファレンスをサブルーチンに渡す これからしばらく,リファレンスの活用法をいくつか紹介します. まずはサブルーチンに渡す引数としての利用です 数百行程度以上のプログラムになると,サブルーチンを使うことが必須になってきます. 独立性のあるサブルーチンを書くには,グローバルな(プログラム中のどこからでも見える) 変数はあまり使いたくありません.なるべく引数として受け取ったものを処理させるように するのが望ましい設計です. けれども, 「サブルーチンの引数はスカラーが並んだひとつのリスト」 という制約があるために,サブルーチンに2つの配列を渡したり,ハッシュを渡したり するのが困難だという話は前のページに書いたとおりです. でも,リファレンスという特別なスカラーを使えばこの問題は解決です. 配列でもハッシュでも,サブルーチンにほんとに渡したいもののリファレンスを渡し, サブルーチンではこの
学会の大会では,自分の研究を発表し,人の発表を聞き,情報を仕入れ,議論し, いろいろ刺激を受けることができます. 大会が終わるころには,やる気レベルが高まった一種のハイな状態になります. けれども,学会から帰ってそれまでの日常生活に戻るとともに,やる気レベルも しだいに減衰していきます . 学会で得た経験とやる気をその後に生かすために, 学会から帰ったらまずやるべきことをメモしてみました. レポートを書く やる気と記憶が失われないうちに簡単なレポートを書きます. 頭を整理することと,せっかくの経験とアイデアを忘れずに残すことが 目的です. 学会から帰って早々は,一種の虚脱状態だったり,時には自己嫌悪に苦しんで たりして,とても学会を振り返る気分にならない場合もあります. それでもめげずにとにかく書いてみます.書くことで乗り越えられることも あります. たとえばこんなことを書いておきます.
ハッシュとはなにか いよいよハッシュです. ハッシュは便利です. ハッシュが使えるようになると,Perl でできることの幅がぐんと広がります. ハッシュを使いこなしてこその Perl です. ハッシュはたくさんのデータをまとめて管理してくれるという点で配列に 似ていますが,何番目の要素かを指定するのではなくて, キーになる文字列(キーワード)を手がかりに要素を指定するデータ構造です. 配列は(スカラー)変数がたくさん順番に並んだデータ構造, ハッシュは,キーになる文字列と,対応する値とのペアが たくさん順不同で並んだデータ構造 です. 例を見るまえに,表記上のルールを説明します. まず,ハッシュ全体の名前は最初に % をつけます (配列のように @ を付けるのではなく). 個々の要素を指定するときは,キーになる文字列を {} で囲んでハッシュ名の うしろにつけます(配列のように [] で囲
文字列を比較するのは eq だけじゃない これまで,文字列を比較して判断するプログラムが何度か出てきました. 引いたおみくじが凶か? 2つの個体 ID が等しいか? この文字列は 空文字列 "" か?といった具合です.比較には,eq という演算子を 使いました. eq を使ってできることは,2つの文字列がピッタリ同じかどうかを判断する ことです. でも,もうちょっとファジーな比較がしたいこともあるでしょう. 空文字列でなくとも空白やタブだけを含む文字列なのか, それともふつうの数字や文字が入った文字列なのかを判断したいとか, 数字だけが並んだデータなのかアルファベットも入ってるのかとか. 正規表現という文字列の表現方法を使うと, ある文字列そのものではなくて, 文字列の一部にある言葉を含んでいるパターンとか, 数字2文字のあとにアルファベットが続いたパターンといった具合に, パターンを指定
R でプログラミング:データの一括処理とグラフ描き started on 2005-06-06 updated on 2008-03-13 この文書は,フリーの統計解析・作図システム R を使って, データの一括処理と図化のプログラムを書けるようになるためのチュートリアルです. R の経験がまったくなくても読めるように書いています. ただし統計解析手法についての解説はほとんどしていません. 他のページや書籍を見てください. 目次 0. はじめに:この文書のねらい 1. 準備一般 2. ひとつのファイルからデータを読み込む 3. ひとつのファイルのデータの処理 4. グラフを描いてファイルに保存する 5. グラフのいろいろな設定 6. グラフの重ね描き 7. 繰り返しと条件分岐:コンピュータらしい仕事 8. 繰り返しと条件分岐で柔軟なグラフ描画 9. 補足:変数の寿命と有効範囲 10. デー
※以下の説明を読むときには,正規表現を整理した 別表 を別ウインドウで開いておくと便利かもしれません. >別表を別ウインドウで開く '同じパターンが再現する'というパターンは後方参照で 前のページで,正規表現を使ったパターンマッチについて簡単に説明しました. ここまでの知識を使って,いろんなパターンの表現方法を考えてみてください. たとえばメールアドレスをどう表現するか,電話番号をどう表現するか, 自分の扱うデータのなかに出てくる文字列パターンをどう表現するか. パズル的な工夫で,いろんなことが表現できます. 後方参照というものを使わないと表現がむずかしいパターンもあります. 後方参照は別表のエスケープシーケンスの終わりの ほうに載っています.パターンの中で,() で囲った部分にマッチした文字列を 意味するものです.() の出てきた順番に,\1, \2,...と書いて指定します. 特殊変
2002 FIFA ワールドカップの得点とポアソン分布 17 June, 2002 交通事故のように, 低い確率で起こることがら(事象)で, その事象がひょっとしたら起こるかもしれない状況が頻繁にあり(試行回数が多く), それぞれの事象はたがいに独立(一度起こった直後にはもう一回起こりやすいといったことがない) という条件が満たされると,ある期間やサンプル集団のなかに含まれる事象の回数は, ポアソン分布と呼ばれる分布に従います. 詳しくは,たとえば青木繁伸さん(群馬大学)の 統計学のページ のなかの ポアソン分布のところ などを参照してください. サッカーの得点はかなり低い確率で起こることがらです.また, ひょっとしたら点が入るかもしれない状況は頻繁にあります. 実力差が大きいチームの対戦なら,強いチームの側に集中して点が入るから, 一度点が入ったらそのあとも続けてそのチームが点を取りそ
聞き手に届く学会発表のために − 口頭発表の心得 1999-11-29 updated on 2008-09-08 学会やセミナーなどで,研究者は自分の研究成果や考えを発表します. こんな研究をしたとか,こんなことを考えたということを,人に伝えるのが目的です. どうせ話すなら,自分のメッセージがよりよく聞き手に伝わってほしいのは当然です. この文章は,少しでも聞き手に届くような話をするために 私がどんなことに気をつけているかを書いたものです. そのほとんどは学会で人の発表を聞きながら学んだことです. 心がけに関することがおもで,見栄えのよいプレゼンのテクみたいなことは ほとんど書いてません. 「学会発表のために」と題していますが,学会に限らず, 修士論文や博士論文の発表会でもあてはまる部分が多いと思います. また,この文章では口頭発表を念頭においています. ポスター発表については 「 聞
[おみくじ・運勢プログラム] [四角形内のランダムな点] [行番号] [体重測定] [ハチの訪花行動] [データの間違い探し:ハチの訪花行動の例で] [長期間の温度データ・データロガー] [共通要素を探し出す] [ファイル名に関連] [400本の樹木個体データ] [樹木の情報のデータ整理] [平均値と標準偏差] [正規表現とパターンマッチのいろいろ] [正規表現の付録] [実験条件が6通りで,それぞれの場合について 4回の測定データ] [その他] [おみくじ・運勢プログラム] 運試しプログラム(おみくじプログラム)・・・3. 関数を使う:rand を利用してランダムなパターンを生成する 今日の運勢を占うプログラム・・・16. サブルーチン:長いプログラムを読みやすく,管理しやすく 天気系列を生成するプログラム・・・3. 関数を使う:rand を利用して
次のページ
このページを最初にブックマークしてみませんか?
『TAKENAKA's Web Page』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く