タグ

Pythonに関するDe_Loreanのブックマーク (36)

  • Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

    はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出

    Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
    De_Lorean
    De_Lorean 2020/05/06
    “ Kaggleで戦いたい人のためのpandas実戦入門 ”
  • Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER

    一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le

    Python: 時系列データの交差検証と TimeSeriesSplit の改良について - CUBE SUGAR CONTAINER
  • PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita

    Pandasのグラフ描画機能 この記事ではPandasのPlot機能について扱います。 Pandasはデータの加工・集計のためのツールとしてその有用性が広く知られていますが、同時に優れた可視化機能を備えているということは、意外にあまり知られていません。 この機能は Pandas.DataFrame.plot() もしくは Pandas Plot と呼ばれるものです。 Pandas Plotを使いこなすことが出来るようになれば、 データの読み込み、保持 データの加工 データの集計 データの可視化 というデータ分析の一連のプロセスを全てPandasで完結させることが出来る、つまり分析の「揺りかごから墓場まで」を実現することが出来ます。 Pandasのプロット以外の機能について この記事ではPandasのデータハンドリングなどに関わる機能は説明しません。 そちらにも興味がある方は下記の記事などを

    PythonでPandasのPlot機能を使えばデータ加工からグラフ作成までマジでシームレス - Qiita
  • virtualenv 基本的なコマンド使い方メモ - Qiita

    この記事の概要・目的 pythonにおける仮想環境作成ツール、virtualenvの基コマンドメモになります。 対象者 たまにしかvirtualenvを使わず、コマンドを忘れてしまった人の備忘録用。 (python開発経験があり、virtualenvを触ったことがある人が対象です。) virtualenvとは? python開発で使う、仮想環境作成ツール。 プロジェクト毎に、クリーンな仮想環境を作成することができるツールです。 virtualenvを導入することにより、以下のようなメリットを享受できます。 プロジェクト毎に開発環境を作成するため、開発中に他のプロジェクトや、マシン中のグローバルなpython環境を汚さずに済む。 プロジェクト中の開発環境が万一壊れても、作り直しが簡単。 virtualenvのインストール 他のpythonパッケージと同じく、pipコマンドでinstallで

    virtualenv 基本的なコマンド使い方メモ - Qiita
  • Jupyter notebook (iPython Notebook)を使う時に気をつけるべき10個のこと - MyEnigma

    PythonユーザのためのJupyter[実践]入門posted with カエレバ池内 孝啓,片柳 薫子,岩尾 エマ はるか,@driller 技術評論社 2017-09-09 Amazonで検索楽天市場で検索Yahooショッピングで検索 目次 目次 はじめに 1. 環境の独立性を保つために各プロジェクト毎にvirtualenvを使う 2. Python3を使う 3. requirements.txtを保存しておく 4. すべてのimport文とパスの設定は初めのセルに入れる 5. はじめはコードは汚くても良い 6. グローバル名前空間を汚さないために、セルの中の処理は関数とする 7. 長い計算時間の結果をキャッシュするためにJoblibを使う 8. セルの独立性をできるだけ保つ 9. 変数名は短くても良い 10. ユーティリティ関数にはアサーションを使ってテストを書く 参考資料 MyE

    Jupyter notebook (iPython Notebook)を使う時に気をつけるべき10個のこと - MyEnigma
  • dplyr のアレを Pandas でやる - Qiita

    Pandas と dplyr のより網羅的な対比は、既に記事が出ています。 私が参考にしたものをこの記事の末尾で紹介していますので、詳しくはそちらをご覧ください 。 前置き|テーブルのキーの扱い方の違い Pandas を使い始める前に理解すべきこととして、dplyr と Pandas ではテーブルのキーの扱い方に大きな違いがあります。この違いを認識していなかった私はかなり苦戦しました…… 以下の2点を理解して (覚悟して?) おくと、学習コストが多少減るのではないでしょうか。 Pandas ではテーブルのキーが Index という別オブジェクトで管理されていること Pandas ではキーや列名に階層構造を持たせられること dplyr におけるキーの扱い R のデータフレームにはテーブルのキーを表す方法として row names という仕組みが用意されています。しかし、dplyr (が利用し

    dplyr のアレを Pandas でやる - Qiita
  • 「効果検証入門」をPythonで書いた - Qiita

    TL;DR 書籍「効果検証入門 正しい比較のための因果推論/計量経済学の基礎」のRソースコードを、Pythonで(ほぼ)再現しました https://github.com/nekoumei/cibook-python 記事では、主にRではライブラリどーん!で済むけどPythonではそうはいかない部分の解説をします 書籍の紹介 https://www.amazon.co.jp/dp/B0834JN23Y 上記Amazonに目次が載っているのでそれを見るのが早い気がしますが。。 とても良いです。正確な意思決定を行うためにどうやってバイアスを取り除くか?に焦点を当てて種々の因果推論の手法(傾向スコア/DiD/RDDなど)をRソースコードによる実装とともに紹介されています。 全体を通して、現実問題の効果検証に因果推論を活用するにはどうすればいいか?という観点で書かれており、非常に実用的だなーと

    「効果検証入門」をPythonで書いた - Qiita
    De_Lorean
    De_Lorean 2020/02/23
    “書籍「効果検証入門 正しい比較のための因果推論/計量経済学の基礎」のRソースコードを、Pythonで(ほぼ)再現しました”
  • 私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD

    文:Daniel Sim 分析:Lee Shangqian、Daniel Sim、Clarence Ng ここ数ヶ月、シンガポールのMRT環状線では列車が何度も止まるものの、その原因が分からないため、通勤客の大きな混乱や心配の種となっていました。 私も多くの同僚と同じように環状線を使ってワンノースのオフィスに通っています。そのため、11月5日に列車が止まる原因を調査する依頼がチームに来た時は、ためらうことなく業務に携わることを志願しました。 鉄道運営会社SMRTと陸上交通庁(LTA)による事前調査から、いくつかの電車の信号を消失させる信号の干渉があり、それがインシデントを引き起こすことが既に分かっていました。信号が消失すると列車の安全機能である緊急ブレーキが作動するため、不規則に電車が止まる原因となります。 しかし8月に初めて発生した今回のインシデントは、不規則に起こっているように見えるた

    私たちはいかにして環状線で”悪さをする列車”を捕まえたか | プログラミング | POSTD
  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
    De_Lorean
    De_Lorean 2020/01/03
    “dask”
  • Python/Numpyのnp.newaxisの考え方のコツ

    はじめに Python機械学習の研究などで多く用いられているプログラミング言語です。特に基礎研究の分野でも使いたいという場合には、これがかえって使いにくくなってしまうことがよくあります。なぜなら、for文を多く書くと遅くなるからです。そこで、for文を書かずに頑張ろうとすると色々なトラブルに出くわすのですが、その中でも筆者が手こずったnp.newaxisの使い方を紹介していこうと思います。これは、いろんなパラメータで実験したいときなどに多く出くわすでしょう。 ※スライスについて事前知識があるものとして説明します。調べるなどして事前に知識を入れておいてください。 [Python]Numpyの参照、抽出、結合 Indexing - docs.scipy.org 編 1. まず用いるデータを把握しましょう はじめは、どんなデータがあって、どんなゴールへ向かわせたいのかをしっかり整理するとよい

    Python/Numpyのnp.newaxisの考え方のコツ
  • [kaggle写経] pip install graphvizしたのにFileNotFoundError

    De_Lorean
    De_Lorean 2019/08/12
    pip install とは別に公式からダウンロード
  • Pythonの仮想環境まとめ

    「さぁ、 Pythonをはじめよう!」 「ええぇっと、まずは pip install ○○ ....」 ちょっと待って下さい、Pythonの仮想環境ってご存知ですか? 慣れない内はチョットめんどうに感じる仮想環境ですが、エラー少なく気持ちよく Python学習、 Pythonプログラミングを楽しむのなら『仮想環境』は必須項目。 今回は、Python初心者向けに情報をまとめてみました。 対象者: Python初心者 "CodeCampus"はオンラインプログラミングスクール No.1のCodeCampが運営するプログラミング未経験の方のための学習メディアです CodeCampとは?(受講生体験記) 「エンジニアは女性のキャリアとして魅力的」未経験からの転職体験記リモートワーク×多拠点居住の新しい生き方を実現する。元バレエダンサーの挑戦普通の文系大学生/営業職が、エンジニア転職起業するまで

    Pythonの仮想環境まとめ
  • pyenvでのPython仮想環境の作り方まとめ - Qiita

    Pythonのバージョンを管理する。2系と3系の環境分けだけでなく、3.4と3.5の環境分けなども含む。 基的には手動でバージョンを切り替えることになるが、特定のディレクトリに移動すると自動でバージョンを切り替えるようにする設定(pyenv local) などもよく使われている。 virtualenv Pythonのパッケージを管理する。Pythonそのもののバージョンは管理しない。 例えば、Django1.8 系を入れた環境と Django1.9系を入れた環境を分けたいときに使う。 pyenv-virtualenv virtualenv を プラグインとして pyenv に組み込んだもの。→ Python のバージョンそのものの管理 + その中でパッケージの管理ができる。 使途の整理 2つの仮想環境の作り方(virtualenv系 と conda env系) Pythonの仮想環境を作

    pyenvでのPython仮想環境の作り方まとめ - Qiita
  • word2vecの学習済み日本語モデルを公開します | カメリオ開発者ブログ

    こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。 自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。 そこで、白ヤギが作った日word2vecモデルを公開します! http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-mo

    word2vecの学習済み日本語モデルを公開します | カメリオ開発者ブログ
  • seabornの細かい見た目調整をあきらめない - Qiita

    はじめに seabornの洗練されたスタイルで作ったグラフはとてもきれいです。見た目だけでなく、列の多いデータの全体像を把握するのにも威力を発揮します1。特に適切に整形されたデータフレームを渡せばカテゴリの比較や全パラメータの相関を一瞥できる図が一瞬で作れる機能は、同等の図をmatplotlibで一から作る苦労を考えると驚愕に値します。データサイエンティストやkagglerに人気があるのも納得です。また、複雑なデータを扱っていないけど単に見た目の良いグラフを作りたいという人の要望にも簡単に答えてくれます。可視化のお作法的にも見た目的にもだいたい勝手にいい感じにしてくれる手軽さが売りのseabornですが、ときには自分で調整したくなるときもあります。matplotlibだと面倒な調整を手軽にやってくれるseabornらしいメソッドで解決できるならいいのですが、たまにseabornのベースであ

    seabornの細かい見た目調整をあきらめない - Qiita
  • 早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita

    English version available on dev.to はじめに matplotlibで作ったグラフの細かい調整は大変です。何をどういじったらいいのかを調べるのにアホみたいに時間がかかることがあります1。「何を」の部分の名前さえわからないこともあります。解決の糸口を掴んだ後も希望通りの見た目を実現するまでの最後のアレンジに苦労することが多いです2。これらの問題はmatplotlibのグラフがどういう要素で構成されていて、それらに対してどういうことができるかを知ることでいくらか改善されます。私はひたすらStack Overflowの回答を読むことでいろんなつまづきを時間をかけて乗り越えてきましたが、最近になってようやく公式チュートリアルにこの苦労を回避できたはずのヒントが書いてあることに気づきました。初期にざっと目を通したのですが「なるほど、よくわからん」と判断して読み込まな

    早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 - Qiita
  • ポケモンデータ解析.py - Qiita

    # https://www.kaggle.com/abcsds/pokemon から取得した Pokemon.csv を読み込む。 df = pd.read_csv("Pokemon.csv") # df とは、 pandas の DataFrame 形式のデータを入れる変数として命名 https://www.kaggle.com/abcsds/pokemon によると、各カラム(列)は次のような意味らしいです。 #: PokeDex index number Name: Name of the Pokemon Type 1: Type of pokemon Type 2: Other Type of Pokemon Total: Sum of Attack, Sp. Atk, Defense, Sp. Def, Speed and HP HP: Hit Points Attack: At

    ポケモンデータ解析.py - Qiita
  • 【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい

    機械学習Podcast「TWiML&AI」で先週取り上げられた可視化ライブラリ「Yellowbrick」が非常に便利だったので紹介します!ちなみにPodcastには作者の1人であるRebecca Bilbroさんが出演しているので興味持った方は是非聞いてみてください。 twimlai.com www.scikit-yb.org Yellowbrickとは 一言で言うと、機械学習に特化した可視化ライブラリです。実装的な面で言うと(こちらの方がわかりやすいかもしれません)、scikit-learnとmatplotlibをラップして、scikit-learnライクなAPIで使うことができるものです。 例えば相関行列のヒートマップをプロットしたい場合は次のように書くだけでグラフを作ることができます。 visualizer = Rank2D(features=features, algorithm=

    【Python】 機械学習の可視化が捗るライブラリ「Yellowbrick」 - フリーランチ食べたい
  • Python本まとめ・2019年版 - Webとデータ分析を初心者が仕事にするまで - Lean Baseball

    毎年恒例、Pythonと学び方のまとめ・2019年バージョンとなります. ※2021/1/11更新:2021年版あります ※2020/1/9更新:2020年版もあります, こちらもよろしくおねがいします! ※ちなみに昨年版はこちら 改めましてこんにちは、Pythonと野球を仕事にしています、@shinyorke(Python歴おおよそ8年)ともうします. なお、Python その2 Advent Calendar 2018 12/24記事でもあります. このエントリーはそこそこ長いので、「最初の方をサクッと読んで、残りはつまみ読み」してもらえると良いかもです!*1 ※もちろん全部読んでも構いません!(それはそれで嬉しい) サクッとまとめると 入り口としての「独学プログラマー」は万人が読んだほうが良い名著 データ分析・解析やりたい人も、Webからやっておくと良いかも(特に前処理) Web

    Python本まとめ・2019年版 - Webとデータ分析を初心者が仕事にするまで - Lean Baseball
  • はじめに — 機械学習の Python との出会い

    はじめに¶ 機械学習の基的な手法の実装を通じて,Python による科学技術計算プログラミングについて知ることができるように,このチュートリアルを執筆しました. チュートリアルの方針¶ このチュートリアルでは,いろいろな機械学習の手法を Python で実装する過程をつうじて,NumPy や SciPy など科学技術計算に関連したモジュールの具体的な使い方を説明します. 機械学習の手法についてはごく簡単な説明に留めますので,詳細は他のを参考にして下さい. また,クラスなどのプログラミングに関する基礎知識や,Python の基的な文法については知っているものとして説明します. プログラム言語やライブラリの解説の多くは,背景にある概念の説明,ソフトウェアのコア部分の仕様,そして,拡張部分の仕様といった順に,その機能の説明が中心となっています. ここでは,これらとは違うアプローチで Py