タグ

統計に関するsh-2のブックマーク (20)

  • >data(airquality)

  • 岩波データサイエンス

    岩波データサイエンス サポートページ 各巻に対応する内容は,上のバーの3線「三」をクリックして左に表示されるメニューからご覧ください (トップページの内容が空白の場合も,メニューで下位の階層をクリックして頂くと内容が表示される場合があります) 新グーグル・サイトに移行しました.自動変換のため,見難くなっている部分,表示されない部分がありますが,ご容赦ください シリーズ「岩波データサイエンス」では、統計科学や機械学習など、データを扱うさまざまな分野について、多様な視点からの情報を提供することをめざします。まったくの初歩からやや高度な話までのいろいろな手法の解説、実務に役立つソフトの使い方、さらには各領域のサイエンスや応用に踏み込んだ内容まで、多彩な記事を掲載します。 装丁には蛯名優子さんの作品を使わせて頂いています。蛯名さんのホームページはこちらです。 【公式ツイッターアカウント】ツイッタ

    岩波データサイエンス
  • スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech

    スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…

    スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech
  • not found

    コミュニケーションが生まれるツイートまとめツール

    not found
  • NYSOL – 超高速な大規模データ解析を実現するソフトウェアツール

    超高速な大規模データ解析を 実現するソフトウェアツール NYSOL makes it easier and faster to analyze big data. NYSOLver2.4.2 SOFTWARE LIST GitHub NYSOL Manual ※NYSOLは日発のオープンソース(無料)です。 *NYSOL is open source software in Japan LICENSE 最新情報NEWS 2019.06.05 SOFTWARE NYSOLのDockerイメージ公開 2019.05.23 SOFTWARE nysol_pympiのインストールメモ 2018.09.20 INFORMATION WebbleバージョンのKIZUNAを公開しました。 Back Number NYSOLとはABOUT NYSOL 大規模データの解析に関する様々な大学やプロジェクト

  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

    どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間

    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
    sh-2
    sh-2 2014/12/18
  • 二つの文字列の類似度 - ktr_skmtの日記

    雑な備忘録なので、サーベイの前準備程度にお使いください。 二つの文字列の類似度を測る方法についてまとめる。なお、値が高いほど類似度が高いものには青色、値が高いほど類似度が低いものには赤色で色付けた。 なお、意味レベルまで考慮して単文あるいは複文同士の類似性を測る技術を一般関係認識や含意関係認識といいます。そこについては書いていませんが、乾健太郎先生の資料が大変参考になりそうです。大規模言語資源時代の意味談話処理 また、原田実先生が開発された意味解析システムSAGEも日語文の類似性を測る技術です。 文字について、 Shift-JISはダメ文字(2nd octetが5c=backslash)を含んでいるため文字化けの危険がある。 EUC-JPの全角は2 octets文字なので一文字目がAB、二文字目がCDの場合、 正規表現でBCを置換すると文字化けの危険がある。また、マルチバイト文字対応の正

    二つの文字列の類似度 - ktr_skmtの日記
  • Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 渋谷駅前で働くデータサイエンティストのブログ

    前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう!という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが(笑)、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris。 Rによるベイジアン動的線形モデル (統計ライブラリー) 作者: G.ペトリス,S.ペトローネ,P.カンパニョーリ,和合肇,萩原淳一郎出版社/メーカー: 朝倉書店発売日: 2013/05/08メディア: 単行この商品を含むブログを見る あと、以前買ったけどまだ全部読み切ってないこちらのCommandeur*1も。 状態空間時系列分析入門 作者: J.J.F.コマンダー,S.J.クープマン,Jacques J.F. Commandeur,Sime Jan Koopman,和合肇出版社/メーカー: シーエーピー出版発売日: 2008/09メディア: 単行購入: 2

    Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 渋谷駅前で働くデータサイエンティストのブログ
    sh-2
    sh-2 2014/09/27
  • 多変数の相関を可視化する方法メモ - 草薙の研究ログ

    自分のためのメモ。 因子分析したら因子分析の結果だけ,構造方程式モデリングしたらパス図だけ,そういうのはちょっと好かない。殆どの場合相関行列があればそういうのは再現できるし,相関行列だって上手に可視化したら,例えば因子分析くらいの見通しはつく。これは,研究報告の透明性というのにもつながる。 ただ論文には紙幅の都合があって,いつでも,というわけにはいかないけど。 とにかく多変数の相関行列に対応するようなデータの可視化について,Rを用いてメモしていく。自分ですぐ忘れてしまうから。 (スクリプトの中に不自然に半角スペースとか入っているのは,hatena記法と変に被るところを避けるため) 散布図行列(SPLOM) 一番てっとり早い方法。 まずRのデフォルト関数で「データフレーム形式」でデータを読み込む。 例えばエクセルからクリップボードにコピーした状態なら, dat<- read="" table

    多変数の相関を可視化する方法メモ - 草薙の研究ログ
  • アホが伝染る

    A「みんなーCには近寄るな。話しかけられても無視な」 B「そうだそうだ」 先生「こらぁお前らなにやっとるか」 A「ああ先生、ぼくらみんなに『C君には近寄るな、アホが伝染るぞ』って呼びかけてたんです」 先生「何言うとる、アホが伝染るわけないやろ。たしかにCには障碍があるけど、そんなんイジメやからすぐやめろ」 A「伝染らないって証拠はあるんですか」 B「万が一当にアホが伝染したらどうするんですか。先生責任とってくれるんですか」 先生「気で言うてるのか?」 A「でも伝染るって言うてる人もいっぱいいますよ」 B「アホからは『アホアホ光線』が出てて、それに当たると徐々にアホになっていくらしいですよ」 先生「アホアホ光線!?」 A「いえ、アホアホ光線が当かはしりませんけど、知能指数が低い人間のまわりには知能指数が低い人間が増える統計もあるらしいですよ。C君の傍にいたら知能指数が下がっていく可能性

    アホが伝染る
  • なぜリスク分析のプロは仮説検定を使わないのか(ややマニア向け) - Take a Risk:林岳彦の研究メモ

    お久しぶりです。林岳彦です。もうすぐ『愛なき世界』の日、いわゆる(マイブラッディ)バレンタインデーですね。何かと雑音が多いこの世界ですが、いつでも自分の足元を見つめて行きましょう。 さて。 今回は、以下の: そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 銀座で働くデータサイエンティストのブログ 統計学的検定に対するある拒絶反応: ニュースの社会科学的な裏側 A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む) - 廿TT のあたりの皆様の良記事に触発されて「仮説検定」について何か書いてみようと思いました。で、書こうと思えば色々な側面から書ける気もするのですが、今回はちょっと斜めからのアプローチとして、「リスク分析の人の頭のなかで仮説検定はこんな感じに見えている」というところを書いていきたいと思います。 ここで、ひ

    なぜリスク分析のプロは仮説検定を使わないのか(ややマニア向け) - Take a Risk:林岳彦の研究メモ
    sh-2
    sh-2 2014/02/12
  • 5分でわかるベイズ確率

    016/01/31(日) 第十回 数学カフェ 「数学史」発表資料 誤って削除してしまいましたので再アップロードします。日語のpdfがアップロードできないので、pptファイル仮アップロードします。 訂正情報: p14 分母の p(B_1|A_1)の説明 誤:病気でない人が陽性になる確率 正:病気である人が陽性になる確率

    5分でわかるベイズ確率
  • データサイエンスのお奨め教科書。統計屋さん的視点から - hotokuとは

    知人に、確率・統計を勉強するにはどんなん読んだら良いんかね?と聞かれたので、まとめる。 線形代数 統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計ので「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計のを読むとよく理解出来る。 で、線形代数のお奨めはこれ。 プログラミングのための線形代数 作者: 平岡和幸,堀玄出版社/メーカー: オーム社発売日: 2004/10/01メディア: 単行購入: 27人 クリック: 278回この商品を含むブログ (90件) を見るプログラミングのための…とあるんだけど

    データサイエンスのお奨め教科書。統計屋さん的視点から - hotokuとは
  • さらば!データサイエンティスト

    2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309Read less

    さらば!データサイエンティスト
    sh-2
    sh-2 2013/08/24
    コンパイラは優れた道具としてプログラマみんなが使ってるが、本当の専門家は少ない。ツール類が十分発達したらビッグデータを用いた何某もそういう感じに近づいて行くのだろうか
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
    sh-2
    sh-2 2013/08/07
  • LINE 執行役員 葉村より、LINEの広告事業が目指す「CHANGE」 - ブログ | LINE Biz-Solutions

    担当者に相談しませんか? 各種サービスのはじめ方や費用について、今すぐ相談できます。LINEヤフーの担当者が丁寧にお答えいたします。 メッセージMESSAGE "W!th"をテーマに、 LINEヤフーは 皆さまのビジネスの成長を支援します。 2023年10月、弊社は「LINEヤフー株式会社」として新たなスタートを迎えました。 コミュニケーションアプリの「LINE」、検索ポータルの「Yahoo! JAPAN」を中心に日最大級のユーザー数を抱える企業として、 企業や店舗、そしてパートナーの皆さまと共に手を取り合いながら、ビジネスの成長を支援して参ります。

    LINE 執行役員 葉村より、LINEの広告事業が目指す「CHANGE」 - ブログ | LINE Biz-Solutions
    sh-2
    sh-2 2013/07/09
    コレ、いわゆるビッグデータに期待されているようなタスクじゃないでしょ?ただ単に扱うデータが比較的大きいってだけ。
  • プロ野球の統一球「わずかな反発係数の差」が「ホームラン数では一目超然」になるヒミツ!? | 雑学界の権威・平林純の考える科学

    プロ野球の「統一球(低反発球)」が、昨年まで使われていたものと今年使われているものが違う、というニュースになっています。 一昨年・昨年と反発係数が0.410程度だったものを今年は0.416にしていた…そして、その結果として今年はホームラン(塁打)数が格段に増えていた!という話です。たとえば、2011年は939・2012年は881だったものが、5月下旬段階でシーズン換算で1286相当だったというのです。 ところで、ほんの1.5パーセント程度の反発係数の違いが塁打数にして900強と1300弱の違いを生む…と聞くと、ちょっと不思議に感じられるのではないでしょうか?この「わずかな反発係数の差」が「ホームラン数では一目超然」になるヒミツを考えてみることにします。 反発係数が1.5パーセント違うということは、打球の速度が1.5%違います。反発係数が低い旧統一球に比べて、反発係数が高い(今

    sh-2
    sh-2 2013/06/17
    イメージはわくし叩き台としては面白いと思うけど、なんか推論がところどころ抜けてる気がする。もし飛距離のデータがあるなら、分布は適合度検定で調べられるし、パラメータも推定できるはず。
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ

    追記2 2015年末の時点での最新リストはこちらです。 追記 この記事の5カ月後にもう少し更新した内容の「お薦めリスト」記事を2つupしてますのでそちらもお読みください。 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 六木で働くデータサイエンティストのブログ 2013年秋版:データ分析初心者にお薦めする「基礎を当にゼロから学ぶ」ためのテキスト5冊 - 六木で働くデータサイエンティストのブログ 今回は、僕が実際に自然科学の研究者からデータサイエンティストへと転身するに当たって、いつも脇に置いていたテキストや同僚が参考にしていたテキストをまとめて紹介します。 ※以下僕も持っているものには「*」を打ってあります*1*2*3 統計学 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メ

    データサイエンティストを目指すに当たって、ぜひ揃えておきたいテキストたちを挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 1