[B! Python][analytics] teddy-gのブックマーク

teddy-g id:teddy-g

Pythonとanalyticsに関するteddy-gのブックマーク (13)

gensim入門 - Qiita
手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。トピック分析、LDA、gensimとは詳しく理解してはいないので、簡単に言うと、トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。文章を準備文章を単語ごとに分割、調整辞書を作成コーパスを作成 LDAモデルを作成分類したい文章をLDAモデルで分類前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers
teddy-g 2018/02/18
gensim使えば簡単に分析できるがその前にまず自分でやってみないと

bigdata

data

datascience

analytics

word2vec

mecab

gensim

lda

python
リンク
JTP Technology Port - JTP株式会社
JTP Techno logy Portにアクセスいただきましてありがとうございます。 JTP Techno logy Port は、2021年3月31日ををもちまして閉鎖いたしました。これまでご利用いただきました皆さまには、心より御礼申し上げます。トップに戻る
teddy-g 2018/02/18
OSXにMecab入れるまで。この通りやったら簡単に入る。

data

bigdata

datascience

analytics

mecab

python
リンク
PythonからMeCab（とCaboCha）を使うまで - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
teddy-g 2018/02/18
タイトルの通り。この通りやったらMecab使えるようになる。

python

bigdata

data

datascience

analytics

mecab

cabocha
リンク
Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
はじめにこんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。本日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。このロジックを実装した目的は、ことばの表記ゆれ（類義語）発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか？仕組みの概要（下記）が分かると、理由を理解できます。 Word2Vecの仕組み（簡単に） Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです！数値
teddy-g 2018/02/18
これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。

bigdata

datascience

data

analytics

python

word2vec
リンク
Pythonで単語分散表現のクラスタリング - Ahogrammer
最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。イメージ的には、以下のような感じで単語をクラスタにまとめます。では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。準備まずは、作業用のディレクトリを作成しておきましょう。また、必要に応じて Python の仮想環境も用意します。以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work
teddy-g 2018/02/18
単語分散表現は色々とやってみたいがなかなか時間が取れない

bigdata

data

analytics

datascience

python

word2vec
リンク
Random Forestで計算できる特徴量の重要度 - なにメモ
(pixabay.comより) １．背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと（追記注釈１）などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。最近、Random Forestをカジュアルに使う例が多く（特にうちの研究室）、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。それで、いろいろな日本語の資料をいくら読んでも、Random Forestがもつ特徴の１つである、特徴量の重要度の詳細に関してはほとんどノータッ
teddy-g 2017/03/26
Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。

randomforest

python

R

statistics

machinelearning

bigdata

analytics

analysis
リンク
開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPythonの技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ
teddy-g 2016/03/04
Python使うとまだまだ楽できそうだなあ。

python

programming

bigdata

machinelearning

tips

analytics

statistics
リンク
RとPythonの連携 – Momentum
概要・PythonとRを連携させることで、PythonからRのコードを実行させる・統計的な分析はRに、データのハンドリングなどはPythonに任せるのが現時点での最適解か・この記事はR Advent Calendar 2014(https://atnd.org/events/58648)の12/10用の記事ですモチベーション専らRやPythonはトレーディング戦略のシミュレーションに用いているわけですが、たまには統計的な分析結果をもとにトレードする戦略などを考える時もあります。シミュレーションの本体はPythonで構築しているので、自ずとPythonで統計分析モジュールも構築する必要があるのですが、これがなかなかかゆいところに手が届かない。 (scikit-learn?知らない子ですね。) やはり餅は餅屋ということで、統計分析はRに任せたい。というか今まで培ってきたRのノウハ
teddy-g 2015/12/08
PyoeR

python

R

bigdata

statistics

analytics
リンク
Python for Financeという本 - xiangze's sparse blog
ipython notebookを使って出版されたらしいPython for Financeという本を読みました。 numpy, scipy, pandas, PyMC3をはじめとしたPythonの数値計算、解析系のパッケージを使った金融工学の計算事例と自作ライブラリについての紹介になっています。 Python for Finance: Analyze Big Financial Data 作者: Yves Hilpisch出版社/メーカー: Oreilly & Associates Inc発売日: 2014/12/27メディア: ペーパーバックこの商品を含むブログを見るhttp://shop.oreilly.com/product/0636920032441.do https://books.google.co.jp/books?id=7tzSBQAAQBAJ&printsec=fron
teddy-g 2015/05/20
金融工学×Pythonは確かに気になる。

python

finance

analytics

analysis

bigdata
リンク
Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog
QiitaにてCaffe, Pylearn2のinstallに関する記事を投稿したところTwitterで次のような反応を頂きました。やはり準備が鬼門すぎる。インストール済みのDockerコンテナとかがあればな・・・ Caffe, Pylearn2をまとめて試す by @_Cordea on @Qiita http://t.co/ktKeIHeTxD— ピクシィ (@icoxfog417) January 25, 2015 これは私も感じていたことで、installが一番の関門ではないにしろ、「ちょっと使ってみたい」というユーザーを阻むには十分すぎる障壁だろうと思います。もちろん、Pylearn2はVagrantに慣れていればVMが公開されているのでそちらを使用する手もあります。一応Dockerfileも書いてはいる(動作確認はしていない)のですが、そもそもDockerfileを使用す
teddy-g 2015/03/09
Caffeとpylearn2を入れるときに参考になりそうなので備忘まで。

deep

deeplearning

python

docker

pylearn2

caffe

bigdata

advancedanytics

analytics
リンク
主成分分析と独立成分分析とスパースコーディングの比較[python] - 無限の猿
データを教師なしで変換する行列分解手法、主成分分析（PCA: Principle Component Analysis）、独立成分分析（ICA: Independent Component Analysis）、スパースコーディング(SC: Sparse Coding）の比較。行列分解手法の明確な定義は知らないが、ここではデータを表すベクトルの集合を横に並べた行列をとして、基底を表す行列と係数のを表す行列の積、に変換する手法とする。これはすなわち、元のデータをの列にあたる基底の線形和、で表現することを意味する。はデータの基底で表される空間での表現に相当することになる。ここでが決まっていれば、を求めるのは線形の逆問題（が正則な正方行列であればその逆行列をにかけてやれば良い）となるが、行列分解問題では双方を同時に求める問題となる。自由度も高くなり、、は一意には決まらない。したがって、、に
teddy-g 2014/09/05
数式だらけだけど比較としてはわかりやすいな。まあ、ビジネスマン的には一緒なんだけど。

programming

python

analytics

analysis

bigdata
リンク
単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ
いきなり自分でハードル上げてみました（笑）。ちなみに何故単純パーセプトロンを最初に持ってきたのか？というと、id:echizen_tmさんのブログ記事でも触れておられる通り機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。それゆえ、実際に僕も以前Matlabで糞コード書きながら勉強してた時はやはり単
teddy-g 2014/07/25
これで単純パーセプトロンを分かった気になった。

analytics

analysis

R

python

bigdata
リンク
第17回　パーセプトロンを実装してみよう | gihyo.jp
少し間が空いてしまいましたが、今回は実践編。第15回で紹介したパーセプトロンを実装してみましょう。環境はこれまでと同じくPython/numpy/matplotlibを用います。インストールなどの準備は第6回を参照してください。パーセプトロンの復習第15回で紹介したパーセプトロンの学習アルゴリズムをもう一度簡単に振り返っておきましょう。 2次元平面上のデータ点(xn,yn)(n=1,…,N)に正解ラベルtn∈{+1,-1}が与えられているとします。パーセプトロンは、次の予測式の結果がすべて正解になるようにパラメータa, b, cを決めるものでした。そのようなパラメータは、次の手順で求めることができます。データの中からランダムに1点(xn,yn)を取り出し、f(x,y)に代入すると、現在のパラメータを用いた予測値として＋1または－1が得られます。それが正解tnと一致する場合は何もせ
teddy-g 2014/06/19
Pythonでパーセプトロンを実装する。特徴ベクトル化で1を尻につけてるのはバイアス。

bigdata

analysis

analytics

python

neuralnetwork
リンク
1