hohoho_ho2005のブックマーク - はてなブックマーク

Jupyter Notebookの小ネタ (display, tqdm, SSHポート転送) - くじらにっき++
この記事は jupyter notebook Advent Calendar 2016 の12月13日の記事です。 qiita.com Jupyter Notebookを使う上で，この機能を知らない人を見つけたら教えてあげたくなるような小ネタをいくつか紹介します。 IPython.display.display Jupyter Notebook上でpandasのDataFrameを表示すると，HTMLのtable要素として見やすく表示してくれます。活用している方も多いかと思います。 df[df['f'] == 'C'] と df[df['f'] == 'T'] を表示したいのですが，Jupyter Notebookで表示されるのはそれぞれのセルで最後に評価されたものだけです。そのため，表示したいDataFrameごとにセルを分ける必要があります。 gist.github.com しかしなが
hohoho_ho2005 2016/12/13
Jupyter

python
リンク
scikit-learnで単語文書行列を作る方法の比較 - くじらにっき++
目的テキストデータから特徴ベクトルを作って何かやろうと思ったときに，私の場合は何も考えずに単語文書行列を作ってナイーブベイズのようなベースライン的な手法を試すところからはじめます。単語文書行列というのは以下のページに載っているような行列です。英語ではDocument-Term Matrixといいます。ベクトル空間モデル - Wikipedia Wikipediaに載っているように，行方向に単語，列方向に文書を並べるのが普通です。ただし，scikit-learnの慣習では行方向に事例，列方向に素性を並べるため，逆になります。語のリストから単語文書行列を作るときには，(a) collections.Counterとsklearn.feature_extraction.DictVectorizerを使う方法がシンプルでおすすめです。一方で，scikit-learnにはsklearn.fe
hohoho_ho2005 2015/11/24
scikit-learn

Python
リンク
scikit-learnメモ - くじらにっき++
GridSearchCV，RandomizedSearchCVのverboseオプションドキュメントには単に"Verbosity level."や"Controls the verbosity: the higher, the more messages."としか記載されておらず闇っぽい。 verbose=1では一定の間隔でログを表示，verbose=2ではテスト毎にログを表示，verbose=3ではテスト毎にスコアも含めてログを表示するようなので，私は1か3にすることが多い。カテゴリ素性を含むpandas.DataFrameをnumpy行列に変換する 1. DictVectorizerを使う追加のパッケージは不要だけど，一度Pythonの辞書に変換しているので効率が悪そうな気がしなくもない。 stackoverflow.com fastml.com 2. sklearn-panda
hohoho_ho2005 2015/06/17
Python
リンク
1