タグ

分析に関するy_246ajihuraiのブックマーク (13)

  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 第2回 「ある商品といっしょによく売れる商品は何か?」を見つけるには ~マーケット・バスケット分析の考え方 | gihyo.jp

    Mahoutで体感する機械学習の実践 第2回「ある商品といっしょによく売れる商品は何か?」を見つけるには ~マーケット・バスケット分析の考え方 いっしょによく売れる商品は、マーケティング上重要 実店舗でもECサイトでもマーケティング上、「⁠ある商品といっしょによく売れる商品は何か?」という発想はとても重要です。 実店舗であれば、次のように商品の配置を決めるのに役立てることが考えられます。 「いっしょによく売れる商品をより近くに置くことで買われやすくする」 「もしくは意図的に遠くに置くことで、店舗内の回遊を促す」 また、次のようにセール対象商品の選定にも利用できます。 「セールの対象商品にはどちらか片方だけを含み、もう片方はセールに含まず通常価格で販売する」 一方、ECサイトであれば、次のようにレコメンデーションの機能につなげることができます。 「この商品を買った人はこんなものも買っています

    第2回 「ある商品といっしょによく売れる商品は何か?」を見つけるには ~マーケット・バスケット分析の考え方 | gihyo.jp
  • プリントアウトした方が間違いに気づきやすいワケ - A Successful Failure

    2012年09月24日 プリントアウトした方が間違いに気づきやすいワケ Tweet もう随分前の話になるが、モニタ上で見るよりも、紙で確認したほうが間違いに気づきやすいのはなぜかという議論が盛り上がった。 どうして紙にプリントアウトした方が圧倒的に間違いに気付きやすいのか なぜ「画面」より「紙」のほうが間違いに気づきやすいのか? 考えうる理由についてはおおよそ挙げられているようだ。既出の論点の中では、身体性に関する指摘が重要であるように思われる。身体性とは、認知科学において近年注目されている概念で、身体という物理的存在が周囲の環境とインタラクションすることによって、学習や知識構築を行うことを指す。物理的な紙にプリントアウトされた情報を読むときには、を持つ、ページをめくる、文字をなぞるなどの物理的なインタラクションを行なっており、ページの厚みや重さといった電子情報には無い要素が間違い発見の

  • Tポイントの会員データ分析から企業は何を知るのか

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 多様なシステムから生み出される多種、大量の「データ」を高速に分析し、そこから得た知見をビジネスの競争力強化や顧客満足度の向上に役立てようとする取り組み——「ビッグデータ」が、大きな注目を集めている。 4月中旬に開催された日IBM主催の「Information On Demand Conference Japan 2012」の中で、実際にこのビックデータを活用して成果をあげているいくつかの企業の事例が紹介された。その中には、日人口の約3割におよぶ個人消費者の購買行動に関するデータを活用し、パートナーに対してマーケティング視点での分析サービスを提供している企業があった。 「Tポイント」サービスを展開するカルチュア・コンビニエンス・クラブ

    Tポイントの会員データ分析から企業は何を知るのか
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している

    グーグルでは、社内のプログラマによって作り出される大量のコードの品質を保つため、チェックイン前にユニットテストとコードレビューが行われているそうです。しかし、コードが大量になってくると、ユニットテストやレビューをすり抜けるバグも少なからず発生します。 そこでコードの品質をさらに高めるために、グーグルでは「バグ予測アルゴリズム」を採用。バグがありそうな部分をレビュアーにアドバイスする仕組みを採用したとのこと。 そのバグ予測アルゴリズムとはどんなものなのか。Google Engineering Toolsブログに投稿されたエントリ「Bug Prediction at Google」(グーグルにおけるバグ予測)で説明されています。 ソースコードの修正履歴を基に予測 コードの中にバグがありそうな箇所を分析する手法としては、「ソフトウェアメトリクス」がよく用いられます。これはコードを静的に分析して、

    グーグルはコードの品質向上のため「バグ予測アルゴリズム」を採用している
  • 直交配列実験を基にした重回帰分析の実務

    品質管理のための代表的な統計手法である実験計画法について、実践的な手法を短期間に習得したいと希望している読者に向けて、Excelを使って効率的に独学できるような解説を行う。

    直交配列実験を基にした重回帰分析の実務
  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

  • ランダムな数値を作成する−RAND関数:Excel(エクセル)の関数・数式の使い方/数学

    RANDBETWEEN関数を使って乱数を作成する方法をご紹介しました。 RANDBETWEEN関数は分析ツールアドインに含まれる関数ですから、アドインが組み込まれていない場合は利用できません。 分析ツールアドインが組み込まれていない場合、乱数を作成する標準のワークシート関数を利用してください。RAND関数です。 但しこのRAND関数は、0以上1未満の小数の乱数を作成するだけなので、RANDBETWEEN関数のように範囲を指定した乱数がほしい場合には、数式を工夫する必要があります。 これでaからbの範囲で小数を含んだ乱数が作成されますから、整数の乱数にするのであれば、INT関数やTRUNC関数などを使えばOKです。 例えば、5から10の乱数を作成するのであれば、 「=INT(RAND()*(10-5)+5)」 または 「=TRUNC(RAND()*(10-5)+5)」 とすればいいわけです。

  • 重回帰分析

    Excel:重回帰分析(3)・・・分析ツールの使い方,説明変数の選び方 ここでは,学的に厳密なことは望まず,仕事や研究で報告書を半日程度でまとめなければならない人を念頭に置いて,大筋の説明を目指す.重回帰分析自体に使える時間として,は30分~1時間程度を想定する.(もっと詳しい説明が必要な人は下端に参考資料を示す.) ■Excelの分析ツールの使い方■ 次の例では,冷蔵庫の「実勢価格」(目的変数)を「総容量L」「ドア数(個)」「冷蔵室L」「冷凍室L」「野菜室L」「製氷室L」(説明変数)で表わす重回帰式を求めることを当面の目標とする. 次の図のように目的変数(被説明変数,従属変数)がA列にあり,説明変数(独立変数)がB~G列に入力されている場合を例に解説する. 操作方法は、下の[前の操作][次の操作]ボタンを順次押せば表示される.(データの出所:2007.3.18に価格.com>スペック検

  • Rで多変量解析(一般化線形モデル)〜タイタニックのデータも分析しました〜 - Issei’s Analysis 〜おとうさんの解析日記〜

    今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明

  • Google先生が教えてくれた日本におけるFacebookの利用の実態 - もとまか日記

    憶測で物を語るのが3度の飯より好きな、ネットの実名「もとまか」です。でも辛子明太子の方が好きです。 さて、先日Facebookについて以下の記事を書きました。 Facebookが楽々と世界で普及していった当の理由 この記事にはたくさんの方からTwitterで反応を頂きました。ありがとうございますm(_ _)mFacebookのこと書いてるのにTwitterからってのがインターネットは相変わらず面白いなぁと思いました。 でも、実は私にはまだモヤモヤした感が残ってたんです。それが、以下のこと。 そうです、あのFacebookに関するGoogleトレンドの結果。この記事のGoogleトレンドへの言及部分は、来筋から言えば外しても構わなかったんですが、この図に気がついてしまって、その意味するところが理解出来ず、どうしても気になったので入れてみたわけでした。 決して別記事にするのが面倒くさかった

  • 1