サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
kashino.exblog.jp
ここ一年本業に忙しくて、数学/統計学や実装以外の抽象的なコンピュータ科学周辺の探索や勉強を怠っていた。このままではただのプログラマ兼委託データ解析屋兼経営者/起業家で終わってしまう危機感をずっと感じていた。相変わらず忙しさはあまり解消されないけれど、泣き言をいってもしょうがないので、スキマ時間をつくって修士レベルの教科書を読むことをリハビリにしようと思い習慣づけることを始めた。 今は機械学習再入門をしようと思い、読んでいるのはKevin P. Murphyの"Machine Learning"である。この本は本当にわかりやすく、よく書けていて素晴らしい。MATLABコードもついてきてほとんどの図と例を手元でリプロダクションすることができる。ちなみにMurphyはUBCのCS学部の准教授だったのだが去年そのアカデミック職を辞めてGoogleに入ってしまった。http://research.g
天才研究者の自伝、スーパースターアスリートの半生、難関試験の突破方法、成功する勉強法、起死回生の経営判断。書籍やネットには、いろいろなレベルでたくさんの成功譚であふれている。しかし、それを自分で活かすのは難しい。 それはなぜかというと、成功譚に内在する2つの要因が、他人や他の組織にその話を適用するのを難しくしているからだ。一つは環境条件。もう一つは内部情報。 成功譚を生み出すきっかけになった成功は、その成功した個人や組織の特殊な環境に極度に依存している。もし成功譚から「学んで」成功をしようと試みるなら、その環境条件に出来る限り近づかなければ、成功譚に書かれた成功のプロセスを辿ることができない。天才研究者と同じ知性を持つ、スターアスリートと同じ運動能力を持つ、V次回復した企業のリソースと環境を持つ。一般的にそういう条件を自分に想定するのは不可能である。これが成功譚を自分に応用することが難しい
最近ようやく自分の今の職業的役割というものを受け入れることができるようになったかもしれない。 昔は例え片隅でも物理学に関わって研究者として生きることを望んでいたのだけれど、でも自分の若いエネルギーというかバイタリティというか、こめかみに血流を感じるような状態と、研究職というわりとスタティックで慎重さが重視される職業とにギャップがあって、結局耐え切れずに「キレ」て辞めてしまった。今考えるとバカそのものである。そしてあれから10何年も経つのであふれるバイタリティ的なものはだいぶ収まっている。残念というか、よかったというか。 ただ、その時にうまく扉を閉めずに飛び出してしまったので、職業プログラマになっても、「研究するポジション」的なものが自分の中に心の澱として残っていた。そのせいか、ジャーナルを購読したり、昔の研究を引っ張りだして計算を始めたり、別の分野の勉強をやりだしたりというように、職業エン
NHK BS hiで放映され、各所で話題になったNHKスペシャルの「リーマン予想」の番組をみた。 自宅にはテレビがないのだが、NHKオンデマンドで見逃し番組なるコンテンツを購入できるので、今回はそれを使って視聴した。便利な時代になったものだ。ただ、視るまでに、Windowsでなければいけないとか、IEでなければいけないとか、.Netフレームワークが古いのでアップデートしなければいけないとか、Windows Media Playerが最新版でなければいけないとか、セキュリティアップデートが必要だとかで、1時間以上の手間がかかったけれど。 https://www.nhk-ondemand.jp/goods/G2009012141SC000/index.html「素数の魔力に囚(とら)われた人々~リーマン予想・天才たちの150年の闘い」 その視聴した内容の感想をこのエントリとしたい。僕にはいろい
週末は貯まっている仕事を一気に片付けようという気合いも虚しく、ひたすら経済学の専門書や論文を読むというワケのわからない展開に。ゴメン小松君…。 最初は、あの新聞や書籍の再販制度改革論議の際に、ナベツネに「三悪人」と罵倒された、規制緩和論者の三輪芳朗氏の戦前、戦後の日本研究の一連の論文と書籍である。 http://www.e.u-tokyo.ac.jp/~miwa/Yumeato-files/Yumeato.htm 「計画的戦争準備・軍需動員・経済統制 - 続『政府の能力』」 数式は一切ないのだが、一つ一つの一次資料を丹念に渡って検証し、「通説」「常識」「通念」を論駁していく様にはカタルシスを感じる。例えば、よく小林英雄氏や佐野眞一氏らの本に書いてある「俗説」、1960年代・70年代の日本の高度経済成長は、岸信介や椎名悦三郎、そして佐橋滋のような「産業官僚」が満州において計画し実施しした事業
Google Refine 2.0 http://code.google.com/p/google-refine/ Googleのデータクレンジングツール。ローカルwebサーバーで動作するアプリである。なぜローカルで動作するwebサーバにしているかというと、それには理由があるのだ。ほんと、ビックリ。 公開しているデータはタイトルやデータ形式がマチマチで、それを自分のところで統計解析するには、データレンジングをかなりやらなければいけなかった。そのためには、いままでgrepだとかfindだとかのコマンドやPythonスクリプトで半狂乱になって汚れ落としをしていたけれど、このGoogle Refineを使うとそういう問題がアホみたいに簡単に解決する。 例えば、カテゴリカルデータがセルに割り当てられているとする。記入者によってそれが略語だったりフルの名称だったりマチマチである。これを全て一つの文字
今日午前中はいくつかのお話をしに一橋大の齊藤さんのところに行った。齊藤さんと話してディスカッションしていると、本当に面白くていつも時間を忘れてしまう。こちらからご提示したことが文字通り口を開いて驚いてくれているようだったので、訪ねたかいがあった。こういう真摯で立派な方が自分のペースで社会に語りかけることで、原発問題や震災復興や貿易収支の赤字や財政危機などの社会的問題に対する今の歪んだ認知が解消されて欲しいと思う。 あまり勿体ぶった話もなんなので、1つだけ話してもよさそうな僕が面白いと思った話題をいうと、それは日本人の英語の問題である。英語をちょっとできる日本人がすぐに陥りがちな罠は、重要な局面でさえも英会話の練習か周囲へのヒケラカシという愚行を犯す例が多すぎるという話題をしたことだ。僕は3つ前の会社と2つ前の会社でそれを経験した。例えばある例では外資出身の英会話上手というはずの経営パートナ
このエントリはいろいろ逡巡して書いていたのだけれど、まだ生々しくてうまく書けない。でも、もうこのまま公開しようと思う。 原発危機の経済学: 齊藤 誠 http://amzn.to/uGCKrL 何はなくても僕はこの本を2011年に読んだナンバーワンの書籍とせざるを得ない。それは日本の一級の知性が未曾有の災害に対して真摯に考え続けた中間報告が本書であるという理由もあるのだが、なにより著者の齊藤誠さんがこの本を書く過程で、僕も微力ながら数字まわりのちょっとしたファクトチェックに関わらせていただくことになり、震災直後からのメイルの議論を通じてこの本の成立過程を目の当たりにしてきたという事情を無視できない。あまりに微力なのでここに書くのもおこがましいが、それでも齊藤誠さんはまえがきに僕の名前を謝辞として入れてくださった。 何よりこの本はとても誠実な本である。福島第一原発の危機を考える際に 、第一の
昨年からDAYTUMというwebサービスを利用して、自分が泳いだ距離を記録しているので、そのデータをダウンロードしてRを用いてレビューをしてみることにした。 DAYTUM http://daytum.com/ すると以下のようになる。 > swim <- read.csv("yutakashino.csv", header = TRUE, , stringsAsFactors=FALSE, sep=",") > swim <- transform(swim, date = as.POSIXlt(strptime(swim$date, "%a %b %d %H:%M:%S UTC %Y"))) > df <- subset(swim, swim$name=='swim' & strftime(swim$date, "%Y") == "2011") > sum(df$amount) [1] 3
NHKラジオのサイマル放送が「らじる★らじる」として始まった。これは本当に素晴らしい。 なによりもだ、寝坊して聞き逃しがちな「古楽の楽しみ」をクリアな音声でコンピュータ上に「エアチェック」しておいて、後ほど何度でも再生できるのだ。 古楽の楽しみ http://www.nhk.or.jp/classic/kogaku/ 昔はUSB接続のAM/FMチューナなどを使って録音していたが、雑音が気になって仕方がなかった。しかしそれもサイマル放送で解決。コンピュータに録音するからスケジュールも自在。最近のマシンのディスク容量に比べて音のデータなど小さいから好きなだけ保存できる。一度録音したファイルになってしまえば、すぐに再生もできるし、他のデバイスへの持ち出しも容易である。DropBox等のクラウドシェアリングサービスを使えば、外出先でも自在に再生できる。まさに「エアチェック」のための一気通貫のワーク
Twitterのタイムラインに最近も出ていたのだが、1年位前にRコミュニティで流行ったこれは面白い。 Understanding “randomness” http://stackoverflow.com/questions/3956478/understanding-randomness I can't get my head around this, which is more random? rand() OR rand() * rand() I´m finding it a real brain teaser, could you help me out? これは質問者は"more random"と言っているように、この質問の時点では確率変数の概念を全く理解していなくて、その意味で教科書的というか額に入れて飾りたいようなナイスな間違えの一つである。一般的に普通のプログラム言語のra
今、元経済学者でPop-Eco本の作家である、Tim Harfordの新しい本"Adapt"を読んでいる。これはトンデモナく面白いし、役に立つ。 Amazon.com: Adapt: Why Success Always Starts with Failure Tim Harford: Books http://amzn.to/mM8QEI Harfordはこの本においてMalcom Gladwell風のアネクドートをたくさんだしているのだが、そのアネクドートの選択が絶妙で、しかもそこから引き出される教訓が"The aftermath"の状況下にある僕らの心にとても刺さると思った。確かに、一つ一つの教訓は過去にどこかで誰かが言っていることだが、それらの材料を、経済学者として活躍した著者が論理的に説明し、説得力のあるストーリーテリングをするので、頭に固着しやすいところがこの本の価値だろう。
木を見る西洋人 森を見る東洋人 思考の違いはいかにして生まれるか: リチャード・E・ニスベット http://amzn.to/kjs6EI この本は、ギリシャを源流とする西洋人の考え方と、中国・日本・韓国の東アジア人の考え方が違うということを、認知心理学的な知見を元に述べた本である。認知科学では、人間の認知プロセスというのは普遍性があり、それはギリシャ由来のユークリッド幾何の証明やレトリックを基礎とした直線的なものであることを仮定している。しかし、東アジア人はそのような認知プロセスをとらないとすれば、普遍性のある認知プロセスを仮定している認知科学の基礎の見直しが必要である、とするものである。 具体的に確認される考え方違いとは、西洋人の思考は「分析的思考」であり、東アジア人の思考は「包括的思考」である、というものである。これはタイトルにある「木を見る西洋人森をみる東洋人」というもの、そのもの
yutakashinoの日々と意見 - ご注意:本blogのyutakashino(柏野雄太)による書き込みは、その属する法人等の見解を何ら代表するものでなく、個人のテンポラリな意見の表明に過ぎません。 by yutakashino
Heroku http://heroku.com/ Rubyにプラットフォームを限定したクラウドサービスである。 Heroku (pronounced her-OH-koo) is a cloud application platform for Ruby – a new way of building and deploying web apps. Google App EngineのRuby版であるといってもよい。特にRuby On Railsで威力を発揮する。とにかく便利このうえない。RubyとGitがインストールしてあれば、以下のコマンドですぐにクラウドで自分のアプリが立ち上がる。 $ sudo gem install heroku $ heroku keys:add $ cd /home/aaa/sandbox/1stapp/ $ git init $ git add . $ g
Kindleで2段組の論文を読む http://kindlejapan.ning.com/forum/topics/kindle2duan-zu-lun-wen-du はじめまして Kindle (6インチ版)でA4サイズ2段組の論文(PDF)を読むことを目的に PDFの版面を片段ずつ分割するためのツールを探していたのですが, perl のPDF::API2というモジュールを利用すれば比較的簡単に 自作できることがわかりました. とりあえず,版面を上下左右に4分割または左右に2分割するスクリプトの例です. LinuxとWindows (Activeperl + MinGW)で動いているようですが, どなたか確認&機能拡張していただければ幸いです. ------------------------pdfsplit.pl------------------------ [snip..] PDF
最近、Rの非効率性やパフォーマンスの悪さをここで良く取り上げていて、それじゃあ柏野はRが嫌いなのか、と誤解されることもあると思うので、その弁明を。 僕にとってRはかなり好きなコンピュータ言語だ。使っていてワクワクする。言語を使いながらマイナーな分野の統計学の勉強ができるフリーソフトウェア / オープンソースソフトウェアの言語なんて他には存在しない。最近ではCRANにあるevirやismev, evdを利用して極値統計学を勉強した。 クイックなプロトタイピングができるのも本当に素敵だ。よくわからないデータを探索的に調べていくためには最高のブッシュナイフだと思う。だからこそ、@ITで市井の知識労働者を対象とした連載をしている。 実践! Rで学ぶ統計解析の基礎 http://www.atmarkit.co.jp/fcoding/index/stat.html しかし、エンタープライズレベルに必要
Debian Projectに所属しているRcppの開発者Dirk Eddelbuettelの超高速コードである。先日のRadford Nealのエントリを受けたChristian Robertのブログエントリをみて、Rcppで実装してみたとのこと。 Straight, curly, or compiled? http://dirk.eddelbuettel.com/blog/2010/09/07/#straight_curly_or_compiled こちらもrbenchmarkをインストールして、そのまま試してみよう。 > f <- function(n, x=1) for (i in 1:n) x=1/(1+x) > g <- function(n, x=1) for (i in 1:n) x=(1/(1+x)) > h <- function(n, x=1) for (i in 1
現在、Mat Ridleyの"The Rational Optimist"を読んでいるのだけれど、なかなか面白い。世界は大きな視点でみるとドンドン良くなっている。それは余計な規制や思想から開放されているからだ。自由市場、規制のない自由な風潮こそ、繁栄を生む土壌であり、そしてその土壌にこそ繁栄が進化していくのだ。社会が悪くなるって主張するペシミステックな意見に耳を傾けるな、多少の失敗はあっても自由で(ヤンチャな)合理的オプティミストこそが世の中を一層良くしていくんだ、ってなガンコなリバタリアンらしい主旨である。結構、影響される。著者はThe Economistの記者や編集者を何年も続けていただけあり、明解で説得力のあるテキストを紡いでいると思う。 しかしだ、そのリバタリアンが3年前まで勤めていたのが、最近のクレジットクランチで真っ先に潰れたUKのNorthern Rock銀行なのだ。2004
RとHadoopを併用する並列化ソリューションがようやく実用レベルのとば口の一歩手前まできたカンジがある。昨日発表があった、Revolution Analytics(旧REvolution Comupting)のRとHadoopインテグレーションは、並列化処理速度を目指したというよりは、Hadoopの分散ストレージ(HDFS)をうまく使ってテラバイトサイズのデータを解析できるようにしたソリューションだそうだ。 Revolution Analytics Brings Big Data Analysis to R with R http://bit.ly/cD1Pf9 ちなみにRevolution Analyticsとしては、以前の多コア対応を謳っていた並列化ソリューションであるParallelRもサポートをつづけるけれど、主力をこちらのほうにシフトするみたいだね。 いままでも、Amazon
なぜ日本は政府統計の総合窓口を筆頭に、人口問題研究所も、各種省庁も、データ提供がデフォルトでエクセルなんだ!こんな特定アプリケーションの特定データ形式に依存した形でデータを提供していれば、再利用することがものすごく大変じゃないか。このバカアプリ(Open Officeのcalcも含めて)を立ち上げる度に、WHOのQuality of Lifeの質問紙の回答にあるポイントが確実に一つづつ下がる気分がするんだが。 エクセル提供はいい加減にやめてくれ。エクセルで提供されているファイルの中にはマルチシート、しかも50ものシートが1ファイルにしているようなものが結構あるんだよ。信じられねえ、ありえねえ。どうして再利用をすることを考えないのだ?法律で情報公開を定められているから無理に公開しているだけなのか?再利用されると後ろめたいことがあるから、再利用のコストをワザワザ上げてるの?それとも、国民を統計
ggplot2は既にRをそれなりに使っている人の標準グラフィックツールになった感がある。そのggplot2や驚愕のマルチベクターパッケージplyrのクリエイターで今はRice大学にいるHadley Wickhamのデータビジュアライゼーションのビデオ講義である。ムッチャ分かりやすい。 Hadley Wickham's Data Visualization using ggplot2 short course. http://blip.tv/file/3362248 なるほどね。今ならこういうビデオがあるからggplot2のマニュアルと首っ引きにならなくていいんだね。 マテリアルとデータ・コードは以下にある。 http://had.co.nz/vanderbilt-vis/ ggplot2はこれからの時代のデータビジュアライゼーションの文法とも言うべき体系を持っているので、コードを書いていて
これをみて、 http://booklog.kinokuniya.co.jp/kato/archives/2010/07/post_206.html これを読んで http://www.nakatani-seminar.org/kozin/2004_shuuron/fukushima_syuuron.pdf あきれ果てた。 本研究によって、盈進学園(注:現在の東野高校)の問題点の原因が、直営方式を断念せざるを得なくなったという社会的な制約に あることが判明した。したがって、これをもってパタ ン・ランゲージをまちづくりの手法として失敗と見な すべきではない。パタン・ランゲージは、「名付け得ぬ質」を形成するための優れた‘土台’をつくることが でき、漸進的成長が可能な建物を作れたなら、やがて 伝統的都市のような普遍的な質を形成するだろう。 しかし、今までみてきたように、これを現代社会で実 現する
告知です。@ITのCoding Edigeというフォーラムにて「実践! Rで学ぶ統計解析の基礎」という連載を始めました。第一回は「Rは統計解析のブッシュナイフだ」と題して、連載の仁義を切ることとRを用いたカイ二乗検定の導入を書きました。 第1回 Rは統計解析のブッシュナイフだ http://www.atmarkit.co.jp/fcoding/articles/stat/01/stat01a.html この連載では、実務者が公知になっているデータ(「オープンデータ」と連載では呼んでいます)を利用して、手でRを動かしながら統計解析を実践するように企画しました。そして、読者がそのことによって、統計的なリテラシーを喚起されたり、統計的な認知モデルを頭に描いたりできるといいな、と思っています。対象読者は、統計解析や統計学をきちんと学習する機会が得られなかったけれど、それを知りたいと望む全ての人で、
Tumblrのほうで時たまこれに関するこつぶやきを垂れ流すことがあるのだけれど、アントレプレナーを増やそうとか、起業を増やそうとか、まあそれはそれでまったく結構なことではある。 しかし、実際にやってみればわかるけれど、かなり大変だよ。多くの人は連休や土日にはきちんと休んで家族と旅行に行ったりレジャーをしたいだろうし、自分の資産がみるみる減っていくスリルとサスペンスにはなかなか耐えられないだろうし、大きな夢はもっているが1年後の自分達の姿さえあまりに分散が大きすぎて掴みにくいし、なによりそんな状況だからローンを用いた支払いなんて怖くてできないし、というカンジで多くの人間がやるようなものじゃないと思うよ。実力でヒットさせるよう努力を続けてはいるけれど、それだけではなんともならず運の巡り合わせを祈らなければならないので、気分的にはあまり気持ちがいいときばかりじゃない。まあ、僕はこれが二度目だし、
昨日「フリー」になった以下の本はオススメ。 William Stein Elementary Number Theory: Primes, Congruences, and Secrets http://wstein.org/ent/ SageのクリエイターであるStein先生が書いた数論入門である。数論初歩の中でもRSA暗号や楕円暗号で利用されている数論的要素、つまり剰余環や合同式やフェルマーの小定理や連分数や楕円曲線など、の初歩を教えてくれる。Sageのクリエイターが著者であるということは、もちろんSageのコードで実際に「実験」しながら読み進めることができるということでもあるので、数学があまり得意でないプログラマの人達にも(英語がある程度読めれば)ムチャクチャためになる入門書となっていると思う。この本は、数学専攻でない教養の数学講義や、理科系の一年生の実験数学入門コースや、情報系の暗
調べ物をしていたときに行き当たったエッセイである。 Statistical Modeling: The Two Cultures http://bit.ly/9AMRIn 著者は、機械学習のEnsermble learningの権威、Baggingアルゴリズム、Random Forestアルゴリズムの創始者であり、今は亡きLeo Breiman氏である。 これのエッセイは本質を突いていて本当に面白い。最近では(特に欧米にて)純粋統計学コミュニティから離れた、統計を道具として使う科学コミュニティにおいて、頻度主義の呪縛から離れたベイジアンベースの統計モデリングが大流行していて、Hierachicalモデリングやベイジアンに基づいたロバスト推定をしなければダメなデータ解析という雰囲気になってきているようだ。この論文というか随想は「頻度 VS. ベイズ」という対立軸よりも更に下層にある、そもそも
次のページ
このページを最初にブックマークしてみませんか?
『wrong, rogue and log』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く