タグ

ブックマーク / antibayesian.hateblo.jp (6)

  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!

    2014/10/14 追記 書87ページに「母数」という単語が複数回出てきますが、 これは全て「分母」とすべきでした。*1 通常、統計学の文脈では、母数は各確率分布を特徴付ける変数を指す単語であり、 例えば正規分布は平均と分散という二つの母数によって形状が決定されます。 決して母数と分母(あるいは全数)と誤解してはなりません。 しかし母数と分母を混同することは当によくあることで、 書はこのような頻出する誤解を訂正し、 皆様が統計を用いる際の失敗を一つでも減らす という目的で執筆に至ったにも拘らず、 まさか書でこのような重大な失敗をしてしまったことに対し 心からお詫び申し上げ訂正させて頂きます。 なお、問題個所の記述は共著者の森藤氏ではなく 私が記述したものであり、全責任は私にあります。 を書くに当たり、誤字脱字や言い回しの不備は出来る限り無くすべきですが、 人間であるためミスをす

    エンジニアのためのデータ可視化実践入門という本を書いた - あんちべ!
  • クリスマス暇過ぎて腐女子人気作品の探索的データ解析を行うしかなかった - あんちべ!

    はじめに クリスマスはいつものように全く予定無かったあんちべです、こんばんは! 皆様はクリスマスをお楽しみになられましたでしょうか? 「今yesと答えた奴ら全員地獄に堕ちろ」ってサンタさんにお願いしておいたからな。 さて、世間のリア充様がクリスマスで浮かれまくりやがっていらっしゃる中、 やること無さ過ぎていつものようにpixiv腐女子向け作品を眺めていたところ、 ありがたいことに寂しさを感じる暇もない勢いでどんどん作品が投稿されていました。 ハッピーですね! …………? クリスマスの真っ只中に腐女子絵を投稿している…だと!? クリスマスと言えば皆さんお楽しみのはずでは? いや、クリスマスの夜にむしろ投稿数が増加しているような気が…? という疑惑を抱いたので、実際データを色々眺めてみましょう。 データの説明 データはpixivから下記タイトルで検索した結果を12/26の午前中時点で 各々1

    クリスマス暇過ぎて腐女子人気作品の探索的データ解析を行うしかなかった - あんちべ!
  • SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!

    概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLitePythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残しておきます。 特にユーザ定義関数の組込を自由に出来ると、 分析する際、相当楽になるということに気付きました。 SQLite挟むことで何がどう改善されたの? Hiveはデカいデータをゴリゴリ取ってくる分には SQLちょっと書くだけで済むので大変便利ですが、 初動遅いためちょこちょこ小さいデータを何度も取ろうとするとストレス溜まります。 そのため、これまではある程度のデータをまとめてHiveで落としてきて Pythonで加工してから分析するという流れを取っていました。 ただ加工するために似たようなコード何

    SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
  • 面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!

    転職して丁度2年がたちました。 現在はWebベンチャーで統計屋しています。大変楽しい毎日です。 なぜ楽しいかというと勿論リスプを書いているからというのも大きなる理由の一つです*1。 このエントリでは何が楽しいのか近況交えてつらつらまとまりなく書いてます。 あと現職の解決しがたい不満についても書いています。 糞長くなってしまったので要約すると 「今糞面白いけど超えられない壁あるので誰か助けて」 です。 現職面白い理由5個。 1.データが面白い*2 私は経済学科・数理統計の研究室出身で、応用先としてコミュニケーション活性化を目的とした 行動経済学やテキストマイニングをやっていました。 そういう背景があるため、学生時代いつか壮大な社会実験をやりたいと思ってたけど、 それには大変なお金がかかったり大がかりなシステムを構築しないといけなかったりで断念した。 ですが今はSNSやソーシャルゲームや広告の

    面白いデータは転がりまくってるけど転がってるままなので誰か助けてくれろ - あんちべ!
  • 1