タグ

Pythonとanalyticsに関するteddy-gのブックマーク (13)

  • gensim入門 - Qiita

    手軽にトピック分析を実行できるgensimを知ったので、gensimを使用して簡単な文章をトピック分析するチュートリアルを実行してみました。 トピック分析、LDA、gensimとは 詳しく理解してはいないので、簡単に言うと、 トピック分析とは、大量の文章からいくつかのトピックを分類して、与えられた文章がどのトピックに属するかを分類する手法 LDAとは、トピック分析の1種 gensimとは、トピック分析を行うことができるPython製のソフトウェア gensimを使ったトピック分析は、以下の手順で行えるようです。 文章を準備 文章を単語ごとに分割、調整 辞書を作成 コーパスを作成 LDAモデルを作成 分類したい文章をLDAモデルで分類 前提 Docker Python 2環境を作るのが面倒だったのでDockerを使っているだけです。 $ docker version Client: Vers

    gensim入門 - Qiita
    teddy-g
    teddy-g 2018/02/18
    gensim使えば簡単に分析できるが その前にまず自分でやってみないと
  • JTP Technology Port - JTP株式会社

    JTP Technology Portにアクセスいただきましてありがとうございます。 JTP Technology Port は、2021年3月31日ををもちまして閉鎖いたしました。 これまでご利用いただきました皆さまには、心より御礼申し上げます。 トップ に戻る

    JTP Technology Port - JTP株式会社
    teddy-g
    teddy-g 2018/02/18
    OSXにMecab入れるまで。この通りやったら簡単に入る。
  • PythonからMeCab(とCaboCha)を使うまで - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    PythonからMeCab(とCaboCha)を使うまで - Qiita
    teddy-g
    teddy-g 2018/02/18
    タイトルの通り。この通りやったらMecab使えるようになる。
  • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita

    はじめに こんにちは、Speeeでデータサイエンティストをしている@To_Murakamiと申します。エンジニアではないのですが、コーディングを含めた分析例を発信しようと思い、企業のAdvent Calendarに参加させていただきました。 12月も暮れに差し掛かってきましたね。日は、Word2Vec(ワードトゥベック)という自然言語処理を活用した分析例を紹介します。 このロジックを実装した目的は、ことばの表記ゆれ(類義語)発見器みたいなのを作ってみたいと思ったからです。なぜ、Word2Vecからことばの表記ゆれが分かるのでしょうか?仕組みの概要(下記)が分かると、理由を理解できます。 Word2Vecの仕組み(簡単に) Word2Vecとは言葉通り、単語をベクトル化したものです。ベクトル化した中身には当然数字が入ります。つまり、単語という言語データを数値化することができるのです! 数値

    Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた - Qiita
    teddy-g
    teddy-g 2018/02/18
    これも単語分散表現の話。Word2Vecの仕組みをわかりやすく書いてる。
  • Pythonで単語分散表現のクラスタリング - Ahogrammer

    最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

    Pythonで単語分散表現のクラスタリング - Ahogrammer
    teddy-g
    teddy-g 2018/02/18
    単語分散表現は色々とやってみたいがなかなか時間が取れない
  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
    teddy-g
    teddy-g 2017/03/26
    Random Forestの「寄与率」についてのざっくりとした説明。出来上がった森の内容を直接見るのではなく、森を使ってvalidationする感じ。
  • 開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD

    システムの構築、新しい技術の習得、PythonやDevOpsなどに情熱を注ぐソフトウェア開発者です。現在はチューリッヒを拠点とするビッグデータのスタートアップで働いており、データ分析およびデータ管理ソリューションのためのPython技術を磨いています。 1 はじめに Python は開発時間を短縮できるという点で一般的に評価の高い言語です。しかし、Pythonを使って効率よくデータ分析をするには、思わぬ落とし穴があります。動的かつオープンソースのシステムであるという特徴は、初めは開発を容易にしてくれますが、大規模システムの破綻の原因になり得ます。ライブラリが複雑で実行時間が遅く、データの完全性を考慮した設計になっていないので、開発時間の短縮どころか、すぐに時間を使い果たしてしまう可能性があるのです。 この記事ではPythonやビッグデータで作業をする時に、最も時間を無駄にしがちな事柄につ

    開発者がビッグデータ分析にPythonを使う時によくやる間違い | POSTD
    teddy-g
    teddy-g 2016/03/04
    Python使うとまだまだ楽できそうだなあ。
  • RとPythonの連携 – Momentum

    概要 ・PythonとRを連携させることで、PythonからRのコードを実行させる ・統計的な分析はRに、データのハンドリングなどはPythonに任せるのが現時点での最適解か ・この記事はR Advent Calendar 2014(https://atnd.org/events/58648)の12/10用の記事です モチベーション 専らRやPythonはトレーディング戦略のシミュレーションに用いているわけですが、たまには統計的な分析結果をもとにトレードする戦略などを考える時もあります。 シミュレーションの体はPythonで構築しているので、自ずとPythonで統計分析モジュールも構築する必要があるのですが、これがなかなかかゆいところに手が届かない。 (scikit-learn?知らない子ですね。) やはり屋ということで、統計分析はRに任せたい。 というか今まで培ってきたRのノウハ

    RとPythonの連携 – Momentum
  • Python for Financeという本 - xiangze's sparse blog

    ipython notebookを使って出版されたらしいPython for Financeというを読みました。 numpy, scipy, pandas, PyMC3をはじめとしたPythonの数値計算、解析系のパッケージを使った金融工学の計算事例と自作ライブラリについての紹介になっています。 Python for Finance: Analyze Big Financial Data 作者: Yves Hilpisch出版社/メーカー: Oreilly & Associates Inc発売日: 2014/12/27メディア: ペーパーバックこの商品を含むブログを見るhttp://shop.oreilly.com/product/0636920032441.do https://books.google.co.jp/books?id=7tzSBQAAQBAJ&printsec=fron

    Python for Financeという本 - xiangze's sparse blog
    teddy-g
    teddy-g 2015/05/20
    金融工学×Pythonは確かに気になる。
  • Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog

    QiitaにてCaffe, Pylearn2のinstallに関する記事を投稿したところTwitterで次のような反応を頂きました。 やはり準備が鬼門すぎる。インストール済みのDockerコンテナとかがあればな・・・ Caffe, Pylearn2をまとめて試す by @_Cordea on @Qiita http://t.co/ktKeIHeTxD— ピクシィ (@icoxfog417) January 25, 2015 これは私も感じていたことで、installが一番の関門ではないにしろ、「ちょっと使ってみたい」というユーザーを阻むには十分すぎる障壁だろうと思います。 もちろん、Pylearn2はVagrantに慣れていればVMが公開されているのでそちらを使用する手もあります。 一応Dockerfileも書いてはいる(動作確認はしていない)のですが、そもそもDockerfileを使用す

    Caffe, Pylearn2をそれぞれinstallしたDockerコンテナをDocker Hubに公開した - CORDEA blog
    teddy-g
    teddy-g 2015/03/09
    Caffeとpylearn2を入れるときに参考になりそうなので備忘まで。
  • 主成分分析と独立成分分析とスパースコーディングの比較[python] - 無限の猿

    データを教師なしで変換する行列分解手法、主成分分析(PCA: Principle Component Analysis)、独立成分分析(ICA: Independent Component Analysis)、スパースコーディング(SC: Sparse Coding)の比較。 行列分解手法の明確な定義は知らないが、ここではデータを表すベクトルの集合を横に並べた行列をとして、基底を表す行列と係数のを表す行列の積、 に変換する手法とする。これはすなわち、元のデータをの列にあたる基底の線形和、 で表現することを意味する。はデータの基底で表される空間での表現に相当することになる。 ここでが決まっていれば、を求めるのは線形の逆問題(が正則な正方行列であればその逆行列をにかけてやれば良い)となるが、行列分解問題では双方を同時に求める問題となる。自由度も高くなり、、は一意には決まらない。したがって、、に

    teddy-g
    teddy-g 2014/09/05
    数式だらけだけど比較としてはわかりやすいな。まあ、ビジネスマン的には一緒なんだけど。
  • 単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ

    いきなり自分でハードル上げてみました(笑)。ちなみに何故単純パーセプトロンを最初に持ってきたのか?というと、id:echizen_tmさんのブログ記事でも触れておられる通り 機械学習には大きく分けて「識別関数」「識別モデル」「生成モデル」の3つの種類がある。このなかで識別関数は確率を使わないので初心者が入門するのに最適。 識別関数で有名なのはSVM(Support Vector Machine、サポートベクターマシン)。名前を聞いたことがある人も多いと思う。そこで早速SVMを学ぼうとすると敷居が高くて挫折しがち。 実はSVMは(大雑把に言うと)パーセプトロンという基礎的な識別関数に「マージン最大化」と「カーネル関数」という考え方を導入したもの。なので機械学習入門者は最初にパーセプトロンを学ぶのが良いと思われる。 それゆえ、実際に僕も以前Matlabで糞コード書きながら勉強してた時はやはり単

    単純パーセプトロンをPythonで組んでみる - 渋谷駅前で働くデータサイエンティストのブログ
    teddy-g
    teddy-g 2014/07/25
    これで単純パーセプトロンを分かった気になった。
  • 第17回 パーセプトロンを実装してみよう | gihyo.jp

    少し間が空いてしまいましたが、今回は実践編。第15回で紹介したパーセプトロンを実装してみましょう。 環境はこれまでと同じくPython/numpy/matplotlibを用います。インストールなどの準備は第6回を参照してください。 パーセプトロンの復習 第15回で紹介したパーセプトロンの学習アルゴリズムをもう一度簡単に振り返っておきましょう。 2次元平面上のデータ点(xn,yn)(n=1,…,N)に正解ラベルtn∈{+1,-1}が与えられているとします。パーセプトロンは、次の予測式の結果がすべて正解になるようにパラメータa, b, cを決めるものでした。 そのようなパラメータは、次の手順で求めることができます。 データの中からランダムに1点(xn,yn)を取り出し、f(x,y)に代入すると、現在のパラメータを用いた予測値として+1または-1が得られます。それが正解tnと一致する場合は何もせ

    第17回 パーセプトロンを実装してみよう | gihyo.jp
    teddy-g
    teddy-g 2014/06/19
    Pythonでパーセプトロンを実装する。特徴ベクトル化で1を尻につけてるのはバイアス。
  • 1