岩波データサイエンス サポートページ 各巻に対応する内容は,上のバーの3本線「三」をクリックして左に表示されるメニューからご覧ください (トップページの内容が空白の場合も,メニューで下位の階層をクリックして頂くと内容が表示される場合があります) 新グーグル・サイトに移行しました.自動変換のため,見難くなっている部分,表示されない部分がありますが,ご容赦ください シリーズ「岩波データサイエンス」では、統計科学や機械学習など、データを扱うさまざまな分野について、多様な視点からの情報を提供することをめざします。まったくの初歩からやや高度な話までのいろいろな手法の解説、実務に役立つソフトの使い方、さらには各領域のサイエンスや応用に踏み込んだ内容まで、多彩な記事を掲載します。 装丁には蛯名優子さんの作品を使わせて頂いています。蛯名さんのホームページはこちらです。 【公式ツイッターアカウント】ツイッタ
スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…
超高速な大規模データ解析を 実現するソフトウェアツール NYSOL makes it easier and faster to analyze big data. NYSOLver2.4.2 SOFTWARE LIST GitHub NYSOL Manual ※NYSOLは日本発のオープンソース(無料)です。 *NYSOL is open source software in Japan LICENSE 最新情報NEWS 2019.06.05 SOFTWARE NYSOLのDockerイメージ公開 2019.05.23 SOFTWARE nysol_pympiのインストールメモ 2018.09.20 INFORMATION WebbleバージョンのKIZUNAを公開しました。 Back Number NYSOLとはABOUT NYSOL 大規模データの解析に関する様々な大学やプロジェクトで
どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析の仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間
2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と
雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理 また、原田実先生が開発された意味解析システムSAGEも日本語文の類似性を測る技術です。 文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、 正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正
前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう!という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが(笑)、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris本。 Rによるベイジアン動的線形モデル (統計ライブラリー) 作者: G.ペトリス,S.ペトローネ,P.カンパニョーリ,和合肇,萩原淳一郎出版社/メーカー: 朝倉書店発売日: 2013/05/08メディア: 単行本この商品を含むブログを見る あと、以前買ったけどまだ全部読み切ってないこちらのCommandeur*1本も。 状態空間時系列分析入門 作者: J.J.F.コマンダー,S.J.クープマン,Jacques J.F. Commandeur,Sime Jan Koopman,和合肇出版社/メーカー: シーエーピー出版発売日: 2008/09メディア: 単行本購入: 2
自分のためのメモ。 因子分析したら因子分析の結果だけ,構造方程式モデリングしたらパス図だけ,そういうのはちょっと好かない。殆どの場合相関行列があればそういうのは再現できるし,相関行列だって上手に可視化したら,例えば因子分析くらいの見通しはつく。これは,研究報告の透明性というのにもつながる。 ただ論文には紙幅の都合があって,いつでも,というわけにはいかないけど。 とにかく多変数の相関行列に対応するようなデータの可視化について,Rを用いてメモしていく。自分ですぐ忘れてしまうから。 (スクリプトの中に不自然に半角スペースとか入っているのは,hatena記法と変に被るところを避けるため) 散布図行列(SPLOM) 一番てっとり早い方法。 まずRのデフォルト関数で「データフレーム形式」でデータを読み込む。 例えばエクセルからクリップボードにコピーした状態なら, dat<- read="" table
A「みんなーCには近寄るな。話しかけられても無視な」 B「そうだそうだ」 先生「こらぁお前らなにやっとるか」 A「ああ先生、ぼくらみんなに『C君には近寄るな、アホが伝染るぞ』って呼びかけてたんです」 先生「何言うとる、アホが伝染るわけないやろ。たしかにCには障碍があるけど、そんなんイジメやからすぐやめろ」 A「伝染らないって証拠はあるんですか」 B「万が一本当にアホが伝染したらどうするんですか。先生責任とってくれるんですか」 先生「本気で言うてるのか?」 A「でも伝染るって言うてる人もいっぱいいますよ」 B「アホからは『アホアホ光線』が出てて、それに当たると徐々にアホになっていくらしいですよ」 先生「アホアホ光線!?」 A「いえ、アホアホ光線が本当かはしりませんけど、知能指数が低い人間のまわりには知能指数が低い人間が増える統計もあるらしいですよ。C君の傍にいたら知能指数が下がっていく可能性
お久しぶりです。林岳彦です。もうすぐ『愛なき世界』の日、いわゆる(マイブラッディ)バレンタインデーですね。何かと雑音が多いこの世界ですが、いつでも自分の足元を見つめて行きましょう。 さて。 今回は、以下の: そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ 統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側 A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT のあたりの皆様の良記事に触発されて「仮説検定」について何か書いてみようと思いました。で、書こうと思えば色々な側面から書ける気もするのですが、今回はちょっと斜めからのアプローチとして、「リスク分析の人の頭のなかで仮説検定はこんな感じに見えている」というところを書いていきたいと思います。 ここで、ひ
知人に、確率・統計を勉強するにはどんなん読んだら良いんかね?と聞かれたので、まとめる。 線形代数 統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計の本で「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計の本を読むとよく理解出来る。 で、線形代数のお奨めはこれ。 プログラミングのための線形代数 作者: 平岡和幸,堀玄出版社/メーカー: オーム社発売日: 2004/10/01メディア: 単行本購入: 27人 クリック: 278回この商品を含むブログ (90件) を見るプログラミングのための…とあるんだけど
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり
プロ野球の「統一球(低反発球)」が、昨年まで使われていたものと今年使われているものが違う、というニュースになっています。 一昨年・昨年と反発係数が0.410程度だったものを今年は0.416にしていた…そして、その結果として今年はホームラン(本塁打)数が格段に増えていた!という話です。たとえば、2011年は939本・2012年は881本だったものが、5月下旬段階でシーズン換算で1286本相当だったというのです。 ところで、ほんの1.5パーセント程度の反発係数の違いが本塁打数にして900本強と1300本弱の違いを生む…と聞くと、ちょっと不思議に感じられるのではないでしょうか?この「わずかな反発係数の差」が「ホームラン数では一目超然」になるヒミツを考えてみることにします。 反発係数が1.5パーセント違うということは、打球の速度が1.5%違います。反発係数が低い旧統一球に比べて、反発係数が高い(今
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く