タグ

statに関するyuguiのブックマーク (19)

  • 「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識 (1/2):「AI」エンジニアになるための「基礎数学」再入門(2) - @IT

    「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識:「AIエンジニアになるための「基礎数学」再入門(2)(1/2 ページ) AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回から具体的に数学を学ぶと予告しましたが、まずは「測定」と「データ」の基礎知識について押さえておきましょう。 私たちは“測定”を毎日行っている AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載『「AIエンジニアになるための「基礎数学」再入門』。初回は、「AIエンジニア」になるために数学を学び直す意義や心構え、連載で学ぶ範囲についてお話ししました。今回から具体的に数学を学ぶと予告しましたが、まずは「測定」について理解する必要があります。 そもそも統計や機械学習AI)を用いて問題を分析する

    「27°C×2=54°C」が何の意味もない理由とは――「測定」と「データ」の基礎知識 (1/2):「AI」エンジニアになるための「基礎数学」再入門(2) - @IT
    yugui
    yugui 2018/11/30
  • 「本が売れないのは図書館が本を貸すからだ」問題の立証をできる範囲でやる - 図書館学徒未満

    が売れないのは図書館をタダで貸すからだ」という主張がある。その反論も、先行する実証研究もいくつかあるけれど、いまいちこの主張の真偽を決定するには至らない。 図書館貸出冊数が書籍販売金額に与える影響の計量分析の一考察 「が売れぬのは図書館のせい」というニュースを見たのでデータを確かめてみました - CNET Japan どうして多くのひとが関心を持っているにも関わらず、この小学生が思いついたみたいな問題がちゃんと解決されないかというと、分解してみたら意外とややこしいからだ。 まず 「が売れないのは図書館を貸すからだ」 が真だとしたら、その対偶である 「図書館を貸さなければは売れる」 も真となる。多分、この主張をするひとたちが言いたいのはこっちだ。 (すみません確かに対偶じゃありませんでした。ややこしいので削除します。ご指摘ありがとうございました) この問題を検証するには

    「本が売れないのは図書館が本を貸すからだ」問題の立証をできる範囲でやる - 図書館学徒未満
  • 【xkcd】pythonコードにたった一行で漫画のようなグラフを作る! - プロクラシスト

    xkcdとは 世界一で最も人気のあるウェブ漫画の一つです xkcd: Code Quality 3 ランダル・マンローが2005年9月に開設 皮肉や風刺が得意。理系ネタが結構多い。 現在は週3回更新されている キャラやフォントが特徴的 これとか皮肉が効いてていいですね!好きです A : 寝ないの? B : 寝られないんだ、大事なことがある A : なによ? B : 誰かがインターネットでボロを出してるんだ xkcd: Duty Calls 実はmatplotlibを使えば、グラフをxkcd風に仕立てられます。しかもたった一行で!今回はその紹介をします xkcdとは matplotlibで、xkcd requirement 使い方 MatplotlibのHPもxkcd風に サンプルを見てみる 3D 円グラフ 最後に matplotlibで、xkcd requirement matplotli

    【xkcd】pythonコードにたった一行で漫画のようなグラフを作る! - プロクラシスト
  • stats_flow_chart_v2003.cdr

    Flow Chart for Selecting Commonly Used Statistical Tests Type of data? Type of question Chi-square tests one and two sample Relationships Differences Do you have a true independent variable? Continuous Discrete, categorical Yes No Tests for Equal Variances Means Parametric Nonparametric Two groups More than two groups Parametric Nonparametric Nonparametric Parametric If significant, do a post hoc

    yugui
    yugui 2016/06/12
  • 当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ

    どうも。 1月に入社したばかりの、データ分析担当のn_maoです。 と言いながら、最近はHTMLとjsばかりいじっております。 それはそれで楽しいです。 さて今回はデータ分析のざっくりとした仕事内容と、その分析にかかる手間を省くツールをご紹介します。 データ分析仕事 まずは私の行っているデータ分析という仕事の内容をご紹介します。 私の主な仕事は大きく分けて4つです。 売上げ、会員登録数などの簡単な集計&自動レポーティング データベースからの知識発見(いわゆるデータ分析) 分析結果をもとにした企画立案 実施された企画の効果検証 あくまで私個人の仕事内容であり、データ分析者全員に当てはまるわけではありません。 アルゴリズムの研究開発の方や、インフラ寄りの方もいらっしゃるでしょう。 ですが、同じ職種の方で業務範囲が被っている方も少なからずいらっしゃると思います。 これら4つの業務の中で一番時間

    当社データサイエンティストがこよなく愛している『mコマンド』で数億行を高速集計する話 - ハウテレビジョンブログ
    yugui
    yugui 2015/02/22
  • 杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

    先日、とあるコンサルの社長さんとお酒を飲みながらお話していて出てきた話題が「畢竟データ分析って何の役に立つんだろう?」というものだったんですが、そこで僕が思い出して紹介したのが「獺祭」で世界進出を成功させている旭酒造のエピソードだったのでした。 ということで、その事例を振り返りながら久しぶりにちょっと与太話でもしようと思います。 http://www.tv-tokyo.co.jp/cambria/backnumber/20140116.html ちなみに上ははてブでも大きな話題を呼んだ東洋経済の特集記事ですが、僕にとってはテレ東カンブリア宮殿で紹介された時の映像の方が遥かに衝撃的でした。 「獺祭」は杜氏でも何でもない普通の社員が、データに基づいて一挙手一投足を決めながら仕込んでいる 東洋経済の記事では割とざっくりとしか書かれてないんですが、カンブリア宮殿で放映された映像では獺祭の製造工程の

    杜氏のいない蔵元が示した「データ分析さえすれば職人の技を職人抜きでも再現できる」という事実の凄み(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
    yugui
    yugui 2014/11/01
  • 多変数の相関を可視化する方法メモ - 草薙の研究ログ

    自分のためのメモ。 因子分析したら因子分析の結果だけ,構造方程式モデリングしたらパス図だけ,そういうのはちょっと好かない。殆どの場合相関行列があればそういうのは再現できるし,相関行列だって上手に可視化したら,例えば因子分析くらいの見通しはつく。これは,研究報告の透明性というのにもつながる。 ただ論文には紙幅の都合があって,いつでも,というわけにはいかないけど。 とにかく多変数の相関行列に対応するようなデータの可視化について,Rを用いてメモしていく。自分ですぐ忘れてしまうから。 (スクリプトの中に不自然に半角スペースとか入っているのは,hatena記法と変に被るところを避けるため) 散布図行列(SPLOM) 一番てっとり早い方法。 まずRのデフォルト関数で「データフレーム形式」でデータを読み込む。 例えばエクセルからクリップボードにコピーした状態なら, dat<- read="" table

    多変数の相関を可視化する方法メモ - 草薙の研究ログ
    yugui
    yugui 2014/08/17
  • Rubyで俺指向言語Qのプロトタイプ作った - Qiita

    fooo↑↑ 動機 僕はただの数学/統計系の学部生で、RやMathematicaなどの言語を強いられる事が多いのですが、 RubyやHaskellやScalaなどのステキな言語を知っていると「ちょっとな〜」と思っておりましたところ、 突然「あ、新しい言語作らなアカン」という不可思議な衝動に駆られ ガッと取り憑かれたように実装し、少し冷静になってQiitaを書いているのが今です. フィードバックを頂きながら育てて行きたいと思います(コミッター絶賛募集中、ワイワイ楽しくやりたいです. アメちゃん差し上げるのでお願いします. ) 現在はコンパイラと4秒くらいで作ったインタプリタがあります. ポリシー 一番大きな観念としては 「紙とペンの感動をキーボードで」 です. 後々の可読性や保守性などはどうでもよくて、 「その瞬間(コードを書いている瞬間)の気持ちよさ、心地よさ、そしてその返値を楽しむ事」

    Rubyで俺指向言語Qのプロトタイプ作った - Qiita
  • Google検索のようにデータ分析ができるようになる [Meteor Tech Talks] - ワザノバ | wazanova.jp

    [Video] https://www.youtube.com/watch?v=Oy6WuKAr8B4 ベルギーの開発者Dirk Stevents (Wondergraphs) がMeteorを使って、Google検索のようにデータ分析ができる新サービス (Interview) のデモを披露してます。 手元のデータを素早くアップロードし、検索画面に分析したい切り口のキーワードを入れると、複数の美しいグラフが検索結果として表示され、それを適宜画面上で加工することができるという仕組みです。デモの範囲ではどれだけ実用性のあるレベルまできているのかわからないですが、正式にローンチできるレベルまでくれば、データ分析 & 加工 & 資料作成作業が相当楽しくなりますね。 アプリの開発をずいぶんやってきたが、今までやってきた、例えば、Backbone.js, Less, Puppet, Nginex, A

    yugui
    yugui 2014/02/08
  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • 今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ

    (※※※続編記事書きました→「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ) 今ちょうどadtech tokyo 2013の会期中で、職場からも近い&会社から行ってこいという指示が出たということで僕も色々セッションを聞いたり企業ブースのお話を聞いたりしてる*1ところです。 ところで、いくつかのセッションの中でキーワードとして「重回帰分析」という言葉が出てきてました。ま、それ自体はこのブログでもRによるデータ分析絡みで頻出だし、ぶっちゃけありふれた手法と言って良いでしょう。やりようによっては普通にExcelでもできますし、それだけ人口に膾炙していると言って良いのかもですね。 ただし。意外にも内部のパラメータというか細かい手法の分岐というか、それこそ普通の線形モデルvs.一般化線形モデル(バリエーション多数)があることを無視して漫然と重回帰分析をや

    今さら人に聞けない「重回帰分析の各手法の使い分け」 - 渋谷駅前で働くデータサイエンティストのブログ
    yugui
    yugui 2013/11/25
  • データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ

    世の中データ分析部門を立ち上げる企業が増えてきて、「データサイエンティスト」と名乗ろうが名乗るまいがデータ分析者を置いて様々なビジネス上のデータを分析させるところが目立ってきました。 でも、一方で実際のデータ分析者たちが何をやっていて、どういうアウトプットを出しているのか?について、きちんと理解している人はあまり多くなさそうに見えます。うっかりすると、「金とデータは渡すから良きに計らえ」*1ってところも少なくないかも。。。 それではあまりにもざっくりし過ぎているので、実際のデータ分析者がどんなことをしているのかを、超絶大ざっぱに4つに分けてみました*2。即ち、「回帰・分類・推定・予測」の4つのコンセプトです。今回はこの4つのコンセプトについて、データ分析を「させる(依頼する)」側の人たちに出来る限り分かりやすく説明してみようと思います。 ということで、データ分析を「させる(依頼する)」側の

    データ分析を「させる(依頼する)」側に最低限知っていて欲しい4つの分析コンセプト - 渋谷駅前で働くデータサイエンティストのブログ
    yugui
    yugui 2013/10/24
  • 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ

    どもっす。林岳彦です。ファミコンソフトの中で一番好きなのは『ソロモンの鍵』です*1。 さて。 今回は、因果関係と相関関係について書いていきたいと思います。「因果関係と相関関係は違う」というのはみなさまご存知かと思われますが、そこをまともに論じていくとけっこう入り組んだ議論となります。 「そもそも因果とは」とか「因果は不可知なのか」のような点について論じるとヒュームから分析哲学(様相論理)へと語る流れ(ここのスライド前半参照)になりますし、統計学的に因果をフォーマルに扱おうとするとRubinの潜在反応モデルやPearlのdo演算子やバックドア基準(ここのスライド後半参照)の説明が必要になってきます。 その辺りのガッツリした説明も徐々に書いていきたいとは考えておりますが(予告)、まあ、その辺りをいちどきに説明しようというのは正直なかなか大変です。 なので今回は、あまり細かくて遭難しそうな話には

    因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ
    yugui
    yugui 2013/04/18
  • 半可通なりに果敢にも統計マンダラを描いてみた(20110218改訂) - Take a Risk:林岳彦の研究メモ

    今回は果敢にも半可通なりの統計マンダラを描いてみました。私は紛れもない半可通なので間違っているところが多々あると思いますが、ぜひ専門家の皆様に適宜御ツッコミいただければ幸いです(ぜひコメント欄もご利用/ご照会ください)。 【20110218追記:マンダラ図を差し替えました(画像をクリック後「オリジナルサイズを表示」で大きな画像が見れます)】 意図としては、「殆んどの統計モデルは有向*1グラフの形で描けて、そのグラフ構造を数式として実装するときに幾つかの流儀がある」という視点からまとめてみました*2。この試みが成功しているかどうかは良く分かりません。 以下に補足として、それぞれの解析法をモデル式およびグラフで描くとどうなるかも簡単に示していきます。(ここも色々と間違いがあるかもしれませんのでご注意ください!) 仮想の例:「モテる」要因を分析する 説明のための仮想例として「モテる」要因を分析す

    半可通なりに果敢にも統計マンダラを描いてみた(20110218改訂) - Take a Risk:林岳彦の研究メモ
    yugui
    yugui 2013/03/13
  • @ITイベントカレンダー

    平素よりイベントカレンダー+ログをご利用いただき、誠にありがとうございます。 イベントカレンダー+ログは「IT・製造業・ビジネス関係のイベント(セミナー・展示会・勉強会・コンテスト・Webイベントなど)を開催する企業・コミュニティが登録したイベント情報のポータルサイト」として約7年間運営をしてきました。これまでサービスを続けることができたのは、イベントカレンダー+ログのコンセプトに共感をいただき、適切なイベント情報をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、イベント情報の入手方法の多様化やイベント紹介サービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年6月30日(火)15:00をもちましてイベントカレンダー+ログのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知ら

    @ITイベントカレンダー
    yugui
    yugui 2013/03/02
  • 統計学入門

    さて皆さん、「数字は魔物、統計は数字のトリック」などと言われ、統計学はある人々からは疫病神のように忌みに嫌われ、またある人々からは金科玉条のごとく無条件に信奉され、はたまた別の人々からは塵芥のごとく無視されています。 しかしやかましくいわれている割には、その質が十分理解されているとはいい難いのが現状ではないでしょうか? 研究現場の研究者が統計手法を利用する時に犯す間違いのうち、ほぼ90%のものが非常に初歩的なものです。 そしてそれらの間違いは研究者が統計学の基的な事柄をはっきりと理解していないか、あるいはそれらを誤解していることが原因になっています。 例えば研究現場でしばしば間違って使われている統計手法のベスト3は次のようなものです。 有意確率(p値)と「有意差あり」の意味 標準偏差(SD)と標準誤差(SE)の使い分け 多重比較の使用方法 これらは全て非常に初歩的かつ基的なことです。

    yugui
    yugui 2013/03/01
  • 【CodeIQ】Rで解くデータサイエンティスト問題の解説(R Advent Calendar2012) - iAnalysis 〜おとうさんの解析日記〜

    先日より、リクルート様のITエンジニアのための実務スキル評価サービス「CodeIQ」で、データサイエンティストに関する問題を出題させて頂いております(問題集はこちら)。先日12/12のおしゃスタ@リクルートでも少し解説しましたが、Rでの解答例をお見せする時間がなかったので、この機会にブログで公開します(おしゃスタに関するCodeIQ様のブログはこちら)。去年に引き続き勢いだけで参加したR Advent Calendar 2012でしたが、ちゃんとネタが見つかって良かった!!!でも無計画に参加したらクリスマスイブの日に当たってしまったので、、、日付が変わるくらいにさっさと書いてしまいたいと思います!!!爆 【データサイエンティスト初級問題】 【前提】 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデータを受け取りました。先方は何をして欲しいかまだはっきりと決まってな

    【CodeIQ】Rで解くデータサイエンティスト問題の解説(R Advent Calendar2012) - iAnalysis 〜おとうさんの解析日記〜
    yugui
    yugui 2013/02/10
  • 外的基準のある多変量解析

    2つ以上の説明変数の1次式によって1つの基準変数の値を予測する際に用いられる統計手法。 説明変数も基準変数も量的変数である場合に用いられる。

    yugui
    yugui 2013/01/22
  • 第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT

    今ほど統計解析が必要とされる時代はありません。オープンソースの統計処理言語・環境の「R」を使って実践的な統計解析のテクニックとリテラシーを習得しましょう! 読者にとってRは、世に溢れるデータの密林を切り開くための“ブッシュナイフ”となることでしょう(編集部) 統計解析の必要性とリテラシー 21世紀になって、経営学者の故ピーター・ドラッカー氏が言うところの知識労働者は、ますます統計解析を必要する局面が増えてきました。この状況は、20世紀後半から21世紀に起きた計算機能力の増大とインターネットの発展を基礎に、3つの大きな潮流が現れたことがキッカケとなっているように思います。その3つの潮流とは、オープンソース、オープンデータ、そしてオープンアイデアです。後ろの2つは今筆者が名付けました。 オープンソースは、皆さんがご存知のように、Linux、Apache、PerlPythonRubyなどのO

    第1回 Rは統計解析のブッシュナイフだ - 実践! Rで学ぶ統計解析の基礎 - @IT
    yugui
    yugui 2010/07/22
  • 1