[B! 統計] sh-2のブックマーク

岩波データサイエンス　サポートページ各巻に対応する内容は，上のバーの３本線「三」をクリックして左に表示されるメニューからご覧ください（トップページの内容が空白の場合も，メニューで下位の階層をクリックして頂くと内容が表示される場合があります）新グーグル・サイトに移行しました．自動変換のため，見難くなっている部分，表示されない部分がありますが，ご容赦くださいシリーズ「岩波データサイエンス」では、統計科学や機械学習など、データを扱うさまざまな分野について、多様な視点からの情報を提供することをめざします。まったくの初歩からやや高度な話までのいろいろな手法の解説、実務に役立つソフトの使い方、さらには各領域のサイエンスや応用に踏み込んだ内容まで、多彩な記事を掲載します。装丁には蛯名優子さんの作品を使わせて頂いています。蛯名さんのホームページはこちらです。【公式ツイッターアカウント】ツイッタ

sh-2 2015/09/25

リンク

スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech

スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…

sh-2 2015/03/23

リンク

not found

コミュニケーションが生まれるツイートまとめツール

sh-2 2015/03/15

リンク

NYSOL – 超高速な大規模データ解析を実現するソフトウェアツール

超高速な大規模データ解析を実現するソフトウェアツール NYSOL makes it easier and faster to analyze big data. NYSOLver2.4.2 SOFTWARE LIST GitHub NYSOL Manual ※NYSOLは日本発のオープンソース（無料）です。 *NYSOL is open source software in Japan LICENSE 最新情報NEWS 2019.06.05 SOFTWARE NYSOLのDockerイメージ公開 2019.05.23 SOFTWARE nysol_pympiのインストールメモ 2018.09.20 INFORMATION WebbleバージョンのKIZUNAを公開しました。 Back Number NYSOLとはABOUT NYSOL 大規模データの解析に関する様々な大学やプロジェクトで

sh-2 2015/02/07

リンク

当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

どうも。 1月に入社したばかりの、データ分析担当のn_maoです。と言いながら、最近はHTMLとjsばかりいじっております。それはそれで楽しいです。さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。データ分析の仕事まずは私の行っているデータ分析という仕事の内容をご紹介します。私の主な仕事は大きく分けて４つです。売上げ、会員登録数などの簡単な集計&自動レポーティングデータベースからの知識発見（いわゆるデータ分析）分析結果をもとにした企画立案実施された企画の効果検証あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。これら４つの業務の中で一番時間

sh-2 2015/02/07

リンク

ダメな統計学：目次｜Colorless Green Ideas

2017年1月20日追記：『ダメな統計学――悲惨なほど完全なる手引書』という本が出版されることになった。この本は、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。はじめにデータ分析入門検定力と検定力の足りない統計擬似反復：データを賢く選べ p値と基準率の誤り有意であるかないかの違いが有意差でない場合停止規則と

sh-2 2014/12/18

統計

リンク

二つの文字列の類似度 - ktr_skmtの日記

雑な備忘録なので、サーベイの前準備程度にお使いください。二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理また、原田実先生が開発された意味解析システムSAGEも日本語文の類似性を測る技術です。文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正

sh-2 2014/11/20

リンク

Rでベイジアン動的線形モデルを学ぶ(2)：まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 渋谷駅前で働くデータサイエンティストのブログ

前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう！という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが（笑）、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris本。 Rによるベイジアン動的線形モデル (統計ライブラリー) 作者: G.ペトリス,S.ペトローネ,P.カンパニョーリ,和合肇,萩原淳一郎出版社/メーカー: 朝倉書店発売日: 2013/05/08メディア: 単行本この商品を含むブログを見るあと、以前買ったけどまだ全部読み切ってないこちらのCommandeur*1本も。状態空間時系列分析入門作者: J.J.F.コマンダー,S.J.クープマン,Jacques J.F. Commandeur,Sime Jan Koopman,和合肇出版社/メーカー: シーエーピー出版発売日: 2008/09メディア: 単行本購入: 2

sh-2 2014/09/27

統計

リンク

多変数の相関を可視化する方法メモ - 草薙の研究ログ

自分のためのメモ。因子分析したら因子分析の結果だけ，構造方程式モデリングしたらパス図だけ，そういうのはちょっと好かない。殆どの場合相関行列があればそういうのは再現できるし，相関行列だって上手に可視化したら，例えば因子分析くらいの見通しはつく。これは，研究報告の透明性というのにもつながる。ただ論文には紙幅の都合があって，いつでも，というわけにはいかないけど。とにかく多変数の相関行列に対応するようなデータの可視化について，Rを用いてメモしていく。自分ですぐ忘れてしまうから。（スクリプトの中に不自然に半角スペースとか入っているのは，hatena記法と変に被るところを避けるため）散布図行列（SPLOM）一番てっとり早い方法。まずRのデフォルト関数で「データフレーム形式」でデータを読み込む。例えばエクセルからクリップボードにコピーした状態なら， dat<- read="" table

sh-2 2014/08/02

リンク

アホが伝染る

Ａ「みんなーＣには近寄るな。話しかけられても無視な」Ｂ「そうだそうだ」先生「こらぁお前らなにやっとるか」Ａ「ああ先生、ぼくらみんなに『Ｃ君には近寄るな、アホが伝染るぞ』って呼びかけてたんです」先生「何言うとる、アホが伝染るわけないやろ。たしかにＣには障碍があるけど、そんなんイジメやからすぐやめろ」Ａ「伝染らないって証拠はあるんですか」Ｂ「万が一本当にアホが伝染したらどうするんですか。先生責任とってくれるんですか」先生「本気で言うてるのか？」Ａ「でも伝染るって言うてる人もいっぱいいますよ」Ｂ「アホからは『アホアホ光線』が出てて、それに当たると徐々にアホになっていくらしいですよ」先生「アホアホ光線！？」Ａ「いえ、アホアホ光線が本当かはしりませんけど、知能指数が低い人間のまわりには知能指数が低い人間が増える統計もあるらしいですよ。Ｃ君の傍にいたら知能指数が下がっていく可能性

sh-2 2014/05/24

リンク

なぜリスク分析のプロは仮説検定を使わないのか（ややマニア向け） - Take a Risk：林岳彦の研究メモ

お久しぶりです。林岳彦です。もうすぐ『愛なき世界』の日、いわゆる（マイブラッディ）バレンタインデーですね。何かと雑音が多いこの世界ですが、いつでも自分の足元を見つめて行きましょう。さて。今回は、以下の：そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側 A/Bテストのガイドライン：仮説検定はいらない（Request for Comments｜ご意見求む） - 廿TT のあたりの皆様の良記事に触発されて「仮説検定」について何か書いてみようと思いました。で、書こうと思えば色々な側面から書ける気もするのですが、今回はちょっと斜めからのアプローチとして、「リスク分析の人の頭のなかで仮説検定はこんな感じに見えている」というところを書いていきたいと思います。ここで、ひ

sh-2 2014/02/12

統計

リンク

5分でわかるベイズ確率

016/01/31(日) 第十回数学カフェ「数学史」発表資料誤って削除してしまいましたので再アップロードします。日本語のpdfがアップロードできないので、pptファイル仮アップロードします。訂正情報： p14 分母の p(B_1|A_1)の説明誤：病気でない人が陽性になる確率正：病気である人が陽性になる確率

sh-2 2013/11/10

リンク

データサイエンスのお奨め教科書。統計屋さん的視点から - hotokuとは

知人に、確率・統計を勉強するにはどんなん読んだら良いんかね？と聞かれたので、まとめる。線形代数統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計の本で「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計の本を読むとよく理解出来る。で、線形代数のお奨めはこれ。プログラミングのための線形代数作者: 平岡和幸,堀玄出版社/メーカー: オーム社発売日: 2004/10/01メディア: 単行本購入: 27人クリック: 278回この商品を含むブログ (90件) を見るプログラミングのための…とあるんだけど

sh-2 2013/09/15

リンク

さらば！データサイエンティスト

2013/03/28 PFIセミナー「（道具としての）データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309Read less

sh-2 2013/08/24

コンパイラは優れた道具としてプログラマみんなが使ってるが、本当の専門家は少ない。ツール類が十分発達したらビッグデータを用いた何某もそういう感じに近づいて行くのだろうか

リンク

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。なので、普段はDB上でSQL（というかHiveなど）でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

sh-2 2013/08/07

統計

リンク

LINE 執行役員葉村より、LINEの広告事業が目指す「CHANGE」 - ブログ | LINE Biz-Solutions

担当者に相談しませんか？各種サービスのはじめ方や費用について、今すぐ相談できます。LINEヤフーの担当者が丁寧にお答えいたします。メッセージMESSAGE "W!th"をテーマに、 LINEヤフーは皆さまのビジネスの成長を支援します。 2023年10月、弊社は「LINEヤフー株式会社」として新たなスタートを迎えました。コミュニケーションアプリの「LINE」、検索ポータルの「Yahoo! JAPAN」を中心に日本最大級のユーザー数を抱える企業として、企業や店舗、そしてパートナーの皆さまと共に手を取り合いながら、ビジネスの成長を支援して参ります。

sh-2 2013/07/09

コレ、いわゆるビッグデータに期待されているようなタスクじゃないでしょ？ただ単に扱うデータが比較的大きいってだけ。

リンク

プロ野球の統一球「わずかな反発係数の差」が「ホームラン数では一目超然」になるヒミツ!? | 雑学界の権威・平林純の考える科学

プロ野球の「統一球（低反発球）」が、昨年まで使われていたものと今年使われているものが違う、というニュースになっています。一昨年・昨年と反発係数が0.410程度だったものを今年は0.416にしていた…そして、その結果として今年はホームラン（本塁打）数が格段に増えていた！という話です。たとえば、2011年は９３９本・２０１２年は８８１本だったものが、５月下旬段階でシーズン換算で１２８６本相当だったというのです。ところで、ほんの１.５パーセント程度の反発係数の違いが本塁打数にして900本強と1300本弱の違いを生む…と聞くと、ちょっと不思議に感じられるのではないでしょうか？この「わずかな反発係数の差」が「ホームラン数では一目超然」になるヒミツを考えてみることにします。反発係数が１.５パーセント違うということは、打球の速度が1.5%違います。反発係数が低い旧統一球に比べて、反発係数が高い（今

sh-2 2013/06/17

イメージはわくし叩き台としては面白いと思うけど、なんか推論がところどころ抜けてる気がする。もし飛距離のデータがあるなら、分布は適合度検定で調べられるし、パラメータも推定できるはず。

リンク

Webデータ分析＆データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。主に自分向けのまとめという意味合いが強いんですが（笑）、僕が実際に2013年6月現在webデータ分析＆データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。追記回帰分析（特に線形重回帰分析）独立性の検定（カイ二乗検定・フィッシャーの正確確率検定）主成分分析(PCA) / 因子分析クラスタリング決定木 / 回帰木サポートベクターマシン(SVM) ロジスティック回帰ランダムフォレストアソシエーション分析（バスケット分析・相関ルール抽出）計量時系列分析おわりにおまけ1：「素性ベクトル＋分類ラベル」なるデータ前処理おまけ2：グラフ理論*10 {igraph}パッケージでグラ

sh-2 2013/06/11

リンク

データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

追記2 2015年末の時点での最新リストはこちらです。追記この記事の5カ月後にもう少し更新した内容の「お薦め本リスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 六本木で働くデータサイエンティストのブログ 2013年秋版：データ分析初心者にお薦めする「基礎を本当にゼロから学ぶ」ためのテキスト5冊 - 六本木で働くデータサイエンティストのブログ今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「＊」を打ってあります*1*2*3 統計学統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

sh-2 2013/05/08

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

統計に関するsh-2のブックマーク (20)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス