You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
90 Active Blogs on Analytics, Big Data, Data Mining, Data Science, Machine Learning (updated) Stay up-to-date in the data science with active blogs. This is a list of 90 recently active blogs on Big Data, Data Science, Data Mining, Machine Learning, and Artificial intelligence. This post updates a previous very popular post 100 Active Blogs on Analytics, Big Data, Data Mining, Data Science, Machin
2012/3/24追記 わかりにくい部分や間違っている部分を修正した上でもっとちゃんとした解説エントリー書きました 潜在的意味インデキシング(LSI)徹底入門 —————— 前々から特異値分解やLSI(Latent Semantic Indexing)による次元削減の意味について疑問に感じていたので自分なりに考えてみました. 誤りも多々あるかと思いますが… 特異値分解 特異値分解は Aというランクが r の m x n 行列を次のような3つの行列に分解します. \[A = U \Sigma V^T\] ここで,U は m x r の列直交行列,V は n x r の列直交行列,Σは対角要素に特異値を降順に並べた r x r の対角行列です. ※定義の仕方によってはU: m x m 行列,V: n x n 行列,Σ: m x n 行列とすることもあります A のランクが r なので,A には
Python によるデータ分析コンテスト実践 (Part 3)¶本ドキュメントは FIT 2016 チュートリアル資料です. 各種データに対する Python によるデータ処理について,パッケージの利用例を紹介する. 目次¶ 大規模データ処理 (Redshift) Redshift にデータをロードする Redshift による特徴量作成 Redshift でのクラスタサイズごとの実行時間の比較 大規模データ処理 (BigQuery) BigQuery にデータをロードする BigQuery による特徴量作成 BigQuery における実行時間 画像データ (OpenCV) BRISK 特徴点の作成 時系列データ (今回は扱わない) ARIMA モデルを使った季節性のある時系列データのモデル 自然言語データ (今回は扱わない) NTLK による自然言語データの前処理 自然言語データのスコア
これまでデータ・サイエンティストの選ぶプログラミング言語はRだったのだが、急激にPythonに置き換わろうとしている。 このシフトの理由はいくつかあるようだが、第一にはPython自体が汎用的で比較的学びやすい言語であるのに対し、Rが習得するにあたってやや複雑であることがあげられるだろう。 データにますます依存しつつある現代社会とデータに飢えたサイエンティストにとっては「簡単さ」こそが鍵となるのだ。 Rは実際にはプログラミング言語ではないRを覚えることに苦労する人が多い理由として考えられるのは、Rが実際にはプログラミング言語ではないからかもしれない。R専門家のジョン・クックいわく、Rとは「統計のためのインタラクティブな環境」であり、厳密にはプログラミング言語ではないのだ。彼はさらに「Rをプログラミング言語だと考るのではなく、Rがプログラミング言語を内包しているのだと考えた方が良いと分かった
機械学習といえば「Python」です。なぜPythonなのかというと、数値演算や機械学習に関するライブラリがたくさん揃っているからだそう。行列がとても扱いやすいNumPy、グラフ描画が簡単にできるmatplotlib、機械学習のscikit-learnなどなど… 機械学習ではこの3つのライブラリを大いに活用します。 まずは今回はscikit-learnを使った機械学習ではかなり重要になってくる「NumPy」を学びます。 私はPythonもはじめてなのでまずはPythonの概要を把握しつつ、「100 numpy exercises」というNumPyを基礎から学べる問題集を写経して学習したいと思います。 環境構築 まずは環境構築です。詳しくは下記のリンクに飛んで確認いただきたいのですが、Macの場合は、Pythonのバージョン管理システムである「pyenv」と、分析環境を構築するのに便利な「A
50+ Data Science and Machine Learning Cheat Sheets Gear up to speed and have Data Science & Data Mining concepts and commands handy with these cheatsheets covering R, Python, Django, MySQL, SQL, Hadoop, Apache Spark and Machine learning algorithms. There are thousands of packages and hundreds of functions out there in the Data science world! An aspiring data enthusiast need not know all. Here are
Introduction In his famous book – Think and Grow Rich, Napolean Hill narrates story of Darby, who after digging for a gold vein for a few years walks away from it when he was three feet away from it. Now, I don’t know whether the story is true or false. But, I surely know of a few Data Darby around me. These people understand the purpose of machine learning, its execution and use just a set 2 – 3
こんにちは、得居です。最近は毎晩イカになって戦場を駆けまわっています。 本日、Deep Learning の新しいフレームワークである Chainer を公開しました。 Chainer 公式サイト GitHub – pfnet/chainer Chainer Documentation Chainer は、ニューラルネットを誤差逆伝播法で学習するためのフレームワークです。以下のような特徴を持っています。 Python のライブラリとして提供(要 Python 2.7+) あらゆるニューラルネットの構造に柔軟に対応 動的な計算グラフ構築による直感的なコード GPU をサポートし、複数 GPU をつかった学習も直感的に記述可能 ニューラルネットをどのように書けるか 次のコードは多層パーセプトロンの勾配を計算する例です。 from chainer import FunctionSet, Vari
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く