2014年4月26,27日に開催される「ニコニコ超会議3」に出展している「第6回ニコニコ学会β」の企画の1つです。本物っぽさを追求した作品を多数展示するとともに、それぞれの作者にこだわりを語ってもらうトークショーをいくつか企画しています。(ニコ生ありのもの、無しのもの、両方あり) シンポジウム終了後も継続的な研究会として活動を続ける予定なので、興味ある方は @2ndlab までご連絡ください。
本稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ
Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit Steven Bird, Ewan Klein, and Edward Loper This version of the NLTK book is updated for Python 3 and NLTK 3. The first edition of the book, published by O'Reilly, is available at http://nltk.org/book_1ed/. (There are currently no plans for a second edition of the book.) 0. Preface 1. Language Processing and P
Vagrant と Chef Solo ってとてもベンリそうに見えてたのですが、ネット上にあるのは断片的な情報が多かったり、そもそもいろんなやり方があって混乱してたので、サックリ始めるためのチュートリアルを書きました。これをきっかけにベンリな Vagrant ライフを堪能して頂ければ幸いです。 [追記10/10/2013] Window 上の Vagrant でも問題なく動きました。ただ1点注意があって、UAC のポップアップに反応しないと、Vagrant か VirtualBox 側でタイムアウトになってしまうので、ポップアップを見張るか、放置したいなら一時的に無効にしておくとよいです。 [/追記終わり] [追記 10/23/2013] VirtualBox 4.3 だとまだうまく動かないようです(私も host-only adapter の作成で VirtualBox 側のエラーになり
zolrath/wemux 新卒氏がインフラに配属になって、横に座ってOJTをやっているんですが、 説明で自分の画面と、新卒氏の画面を行ったり来たりしてアレやコレや言って作業をしているのが かなり効率が悪かったので、1ヶ月くらい前からwemuxを使って画面を共有するようにした。 screenでも画面共有出来ますが、最近私がscreen使って無いのと、 新卒研修でtmuxを使えと 強制しておいたので、wemuxを使ってます。 wemuxの特徴 tmux1.6以上が必要 単一の端末を複数人で共有出来る。 読み取り専用のmirror mode 複数人で操作ができるpair mode などの特徴があります。 wemuxの導入 導入環境はCentOS5系で、tmux1.6が既に導入済みです。 wemux自体はtmuxのwrapperなので、tmux1.6以上が必要です。 weemuxは管理サーバ(s
2013/7/27 "第28回 データマイニング+WEB@東京−データマイニング・機械学習とビジネス展開 祭り−"を開催しました。 第28回 データマイニング+WEB@東京 ( #TokyoWebmining 28th)−データマイニング・機械学習とビジネス展開 祭り−: Eventbrite Google グループ 会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。 参加者ID・バックグラウンド一覧: 参加者Twitter List: Twitter List TokyoWebmining 28th 参加者セキココ:第28回 データマイニング+WEB @東京 セキココ (作成してくれた @komiya_atsushi さ
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
ツイッターの男女判定(前回の記事)のために、LDAを使ったテキストマイニングがやりたくなった。そのインストール手順メモ。 LDA(Latent Dirichlet Allocations)を使うために現時点で一番簡単な方法は、pythonのgensimというパッケージを使う方法のようです。その手順を書きます。 インストール前の注意事項 pythonに必要なパッケージ類は全部ソースからインストールしています。 ソースからインストールしない方法もあるのですが、2013年4月時点では、pythonに詳しくないと難しいので全くおすすめしません。対象とするOSはAmazon Linuxです。 pythonはyumで使われてたりするので、システムのpythonのバージョンを変えると問題が起きます。なので、この記事ではpythonを特定の場所にインストールしています。 yumからインストールする系のパッ
Kivy has been built to be easy to use, cross-platform and fast. With a single codebase, you will be able to deploy apps on Windows, Linux, macOS, iOS and Android. Business Friendly Kivy is released under the MIT License, is 100% free to use, and is professionally developed, backed and maintained. Companies and individuals are using Kivy for their projects every day.
Impala 0.6 beta was evaluated and compared to Hive for performance. Impala showed over 10 times faster query latency than Hive, with RCFile format compressed with Snappy being fastest at 16.059 seconds versus 197.894 seconds for Hive. Impala 0.6 beta added support for more platforms and RCFile format. Faster performance is expected in the GA release through additional optimizations and support for
Tokyo.SciPyの第5回が1/26(土)に38名の参加者を集めて開催されました。 Python用の数値計算ライブラリNumPyと科学計算フレームワークSciPyの公開勉強会、第5回 プログラム 発起人をしてるものの、今回は完全に神嶌先生(@shima__shima)に運営をお任せしてしまって自分は当日の手伝いしか出来なかったのですが、Tokyo.Rなど裏番組たくさんあったのに通常の人入りで一安心でした。会場をご提供いただいたサイバーエージェント様と当日お手伝いいただいた関係者の方に厚く御礼申し上げます。 以下それぞれの発表について。 計算ソフト PythonSf(小林憲次さん) SciPy、sympy、vpythonをベースにPythonでmatlab/mathematicaレベルのことができる環境を!!という非常に野心的な取り組みについてのお話でした。詳しくはご本人のWebサイトに
ということで,前回で触れたように,データの前処理を実際に行っていきたいと思います.その中でも今回は,欠損値補完についての話をしていきます. 今回のデータでは,NAが含まれているageのデータを補完する必要があります.とはいえ,欠損値を補完するにもいくつか方法があって,どの補完を行うのが妥当かというのを考えなければいけません.そこでまず,欠損値がどういう性質を持っているかについてみていきましょう. 欠損のメカニズム 欠損のパターン データの欠損には大きく分けて3つのパターンがあります. Missing Completely At Random(MCAR):完全にランダムに欠損が生じているもの Missing At Random(MAR) :データ欠損が,データに含まれるほかの変数と関連はしているが,その影響を取り除いた自分自身の値とは関連していないもの Missing Not At Rand
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く