タグ

ブックマーク / kujira16.hateblo.jp (3)

  • Jupyter Notebookの小ネタ (display, tqdm, SSHポート転送) - くじらにっき++

    この記事は jupyter notebook Advent Calendar 2016 の12月13日の記事です。 qiita.com Jupyter Notebookを使う上で,この機能を知らない人を見つけたら教えてあげたくなるような小ネタをいくつか紹介します。 IPython.display.display Jupyter Notebook上でpandasのDataFrameを表示すると,HTMLのtable要素として見やすく表示してくれます。活用している方も多いかと思います。 df[df['f'] == 'C'] と df[df['f'] == 'T'] を表示したいのですが,Jupyter Notebookで表示されるのはそれぞれのセルで最後に評価されたものだけです。そのため,表示したいDataFrameごとにセルを分ける必要があります。 gist.github.com しかしなが

    Jupyter Notebookの小ネタ (display, tqdm, SSHポート転送) - くじらにっき++
  • scikit-learnで単語文書行列を作る方法の比較 - くじらにっき++

    目的 テキストデータから特徴ベクトルを作って何かやろうと思ったときに,私の場合は何も考えずに単語文書行列を作ってナイーブベイズのようなベースライン的な手法を試すところからはじめます。単語文書行列というのは以下のページに載っているような行列です。英語ではDocument-Term Matrixといいます。 ベクトル空間モデル - Wikipedia Wikipediaに載っているように,行方向に単語,列方向に文書を並べるのが普通です。ただし,scikit-learnの慣習では行方向に事例,列方向に素性を並べるため,逆になります。 語のリストから単語文書行列を作るときには,(a) collections.Counterとsklearn.feature_extraction.DictVectorizerを使う方法 がシンプルでおすすめです。一方で,scikit-learnにはsklearn.fe

    scikit-learnで単語文書行列を作る方法の比較 - くじらにっき++
  • scikit-learnメモ - くじらにっき++

    GridSearchCV,RandomizedSearchCVのverboseオプション ドキュメントには単に"Verbosity level."や"Controls the verbosity: the higher, the more messages."としか記載されておらず闇っぽい。 verbose=1では一定の間隔でログを表示,verbose=2ではテスト毎にログを表示,verbose=3ではテスト毎にスコアも含めてログを表示するようなので,私は1か3にすることが多い。 カテゴリ素性を含むpandas.DataFrameをnumpy行列に変換する 1. DictVectorizerを使う 追加のパッケージは不要だけど,一度Pythonの辞書に変換しているので効率が悪そうな気がしなくもない。 stackoverflow.com fastml.com 2. sklearn-panda

    scikit-learnメモ - くじらにっき++
  • 1