並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 183件

新着順 人気順

Pandasの検索結果81 - 120 件 / 183件

  • pythonのmatplotlibの使い方をまとめてみた - Qiita

    はじめに 今回はmatplotlibの使い方をまとめていきます。 matplotlibについては多くの人が使い方をまとめているので、特に目新しいことはないかもしれませんがお付き合い頂ければ幸いです。 前回の記事でnumpyとpandasの使い方についてまとめているので、よろしければご確認ください。 pythonのnumpyについてまとめてみた pythonのpandasの使い方をまとめてみた 今回の記事を書くに当たり、以下の記事がとても参考になりました。 早く知っておきたかったmatplotlibの基礎知識、あるいは見た目の調整が捗るArtistの話 matplotlibの流儀について matplotlibには二つの流儀が存在します。 全てのplt.なんとかで済ませるPyplotインターフェースと、figやaxを定義した後にax.plotで書くオブジェクト指向インターフェースです。 実際に

      pythonのmatplotlibの使い方をまとめてみた - Qiita
    • Python: featuretools ではじめる総当り特徴量エンジニアリング - CUBE SUGAR CONTAINER

      今回は featuretools というパッケージを用いた総当り特徴量エンジニアリング (brute force feature engineering) について書いてみる。 総当り特徴量エンジニアリングは、実際に効くか効かないかに関係なく、考えられるさまざまな処理を片っ端から説明変数に施して特徴量を作るというもの。 一般的にイメージする、探索的データ分析などにもとづいて特徴量を手動で作っていくやり方とはだいぶアプローチが異なる。 そして、featuretools は総当り特徴量エンジニアリングをするためのフレームワークとなるパッケージ。 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G1012 $ python -V Python 3.7.5 もくじ もくじ 下準備

        Python: featuretools ではじめる総当り特徴量エンジニアリング - CUBE SUGAR CONTAINER
      • 医療データベースMIMICの使い方 | シェアする挑戦者

        アクセス権をリクエスト まずはMIMICへのアクセス権をもらう必要があります。以下、その手続きを開設していきますが、こちらも合わせて参照してください。 CITIトレーニング MIMICへのアクセス権をリクエストする前に、CITI programの”Data or Specimens Only Research”というコースを、オンラインで修了しておく必要があります。 まず、こちらのサイトに行き、”affiliation”のところで”Massachusetts Institute of Technology Affiliates”を選びます(”independent learner”ではないのでご注意を)。 “Massachusetts Institute of Technology Affiliates course”→”Human Subjects training category”→

          医療データベースMIMICの使い方 | シェアする挑戦者
        • 【初心者向け】データ分析で必須のPandasを入門しよう! - AI Academy Media

          Pandasとは Pandas(パンダス)とは、データ解析を容易にする機能を提供するPythonのデータ解析ライブラリです。 Pandasの特徴には、データフレーム(DataFrame)などの独自のデータ構造が提供されており、様々な処理が可能です。 特に、表形式のデータをSQLまたはRのように操作することが可能で、かつ高速で処理出来ます。 最新情報に関しては 公式ドキュメントを参考してください。 Pandasを使うことで、下記のようなことが出来ます。 CSVやExcel、RDBなどにデータを入出力できる データ前処理(NaN / Not a Number、欠損値) データの結合や部分的な取り出しやピボッド(pivot)処理 データの集約及びグループ演算 データに対しての統計処理及び回帰処理 なぜPandasを学ぶのか なぜPandasを学ぶのかについて説明します。 機械学習においてデータの

            【初心者向け】データ分析で必須のPandasを入門しよう! - AI Academy Media
          • GitHub - pola-rs/polars: Dataframes powered by a multithreaded, vectorized query engine, written in Rust

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - pola-rs/polars: Dataframes powered by a multithreaded, vectorized query engine, written in Rust
            • GitHub - adamerose/PandasGUI: A GUI for Pandas DataFrames

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - adamerose/PandasGUI: A GUI for Pandas DataFrames
              • 3行のコードでBERTによるテキスト分類ができる時代 - Qiita

                目次 1. はじめに 2. ライブラリの紹介 3. livedoor-corpusでのテストコード はじめに 本記事ではBERTによるテキストのマルチクラス分類(文書分類、text Classification)を手軽に行えるライブラリの紹介をします。 タイトルの3行というのはそのライブラリのメソッド的な意味です。 BERTとは BERTとは、Bidirectional Encoder Representations from Transformers の略で 「Transformerによる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルです。 翻訳、文書分類、質問応答など自然言語処理の仕事の分野のことを「(自然言語処理)タスク」と言いますが、BERTは、多様なタスクにおいて当時の最高スコアを叩き出しました。

                  3行のコードでBERTによるテキスト分類ができる時代 - Qiita
                • [ついにメジャーアップデート]Pandas1.0.0rcのアップデート内容を色々調べてみた - Qiita

                  ついにPandasの1.0.0rc版が公開されたようなので、早速アップデート内容の確認や挙動を試していきたいと思います。 元のツイート : Pandas 1.0.0rc0 is now available for testing! Please try it out and report any issues.https://t.co/iTjBtzy3WA — pandas (@pandas_dev) January 10, 2020 TLDR 極端にがらっと変わったという感じでもありませんが、細かいところが色々とたくさんブラッシュアップされたような印象を受けました。 整数の列に欠損値が含まれていた際に、カラムの型を整数のまま保持するためのpd.NAのシングルトンが追加された。 文字列のカラムがobjectではなく文字列専用の型を指定できるようになった。 真偽値のカラムでも、カラムの型を維

                    [ついにメジャーアップデート]Pandas1.0.0rcのアップデート内容を色々調べてみた - Qiita
                  • Streamlit: データサイエンティストのためのフロントエンド|NAVITIME_Tech

                    こんにちは、けんにぃです。ナビタイムジャパンで公共交通の時刻表を使ったサービス開発やリリースフローの改善を担当しています。 今回はデータサイエンティストのためのフロントエンドとして最近注目を集めている Streamlit を使ってみた話をしようと思います。 Streamlit とはStreamlit は Python でフロントエンドを構築することが出来るフレームワークです。 https://www.streamlit.io/ なぜ Streamlit なのか?最近流行りの React や Vue でフロントエンドを構築するのではダメなのでしょうか?全くそんなことはありません。むしろ表現力の高さでいうと React や Vue のほうがずっと優れています。 問題になってくるのはデータサイエンティストが分析データをプロダクトに組み込むために必要とする作業コストがかなり高いということです。 例

                      Streamlit: データサイエンティストのためのフロントエンド|NAVITIME_Tech
                    • pandasのSettingWithCopyWarningの対処法 | note.nkmk.me

                      pandasで頻出の警告にSettingWithCopyWarningがある。エラーではなく警告なので処理が止まることはないが、放置しておくと予期せぬ結果になってしまう場合がある。 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead loc[]やiloc[]、コピーやビューなどについての詳細は以下の記事を参照。 関連記事: pandasで任意の位置の値を取得・変更するat, iat, loc, iloc 関連記事: pandas.DataFrameにおけるビューとコピー なお、あまりおすすめしないが、警告はPythonの標準ライブラリwarningsモ

                        pandasのSettingWithCopyWarningの対処法 | note.nkmk.me
                      • pandas.DataFrameの構造とその作成方法 | note.nkmk.me

                        pandas.DataFrameは二次元の表形式のデータ(テーブルデータ)を表す、pandasの基本的な型。 DataFrame — pandas 2.0.3 documentation pandas.DataFrame — pandas 2.0.3 documentation ここでは、はじめにpandas.DataFrameの構造と基本操作について説明し、そのあとでコンストラクタpandas.DataFrame()による作成方法およびファイルからの読み込み方法について説明する。 一次元データであるpandas.Seriesからpandas.DataFrameを生成する方法については以下の記事を参照。 関連記事: pandas.DataFrameとSeriesを相互に変換 本記事のサンプルコードのpandasのバージョンは以下の通り。バージョンによって仕様が異なる可能性があるので注意。N

                          pandas.DataFrameの構造とその作成方法 | note.nkmk.me
                        • GitHub - javascriptdata/danfojs: Danfo.js is an open source, JavaScript library providing high performance, intuitive, and easy to use data structures for manipulating and processing structured data.

                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                            GitHub - javascriptdata/danfojs: Danfo.js is an open source, JavaScript library providing high performance, intuitive, and easy to use data structures for manipulating and processing structured data.
                          • Google Colaboratoryでバグに悩まされずにcartopyを使う - Qiita

                            Python(pandasやNumPy)でデータサイエンスをしたい場合、描画ライブラリとしてはmatplotlibを使うのが現在のデファクトスタンダードで、地理空間データや地図の描画にはcartopyを使うのがよいです。そのcartopyですが、Googleクラウド上のJupyter notebookであるGoogle Colaboratoryで使おうとすると、2020-04現在は、公式の方法ではバグで悩まされ、実質的に使えません。回避策とその説明をこちらにまとめてみました。 結論 以下のどちらかでインストールしましょう。 パターン1 !grep '^deb ' /etc/apt/sources.list | \ sed 's/^deb /deb-src /g' | \ tee /etc/apt/sources.list.d/deb-src.list !apt-get -qq update

                              Google Colaboratoryでバグに悩まされずにcartopyを使う - Qiita
                            • 本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita

                              はじめに 株式会社LITALICOでエンジニアをしています@yknoguchiです。 この記事は『LITALICO Advent Calendar 2023』10日目の記事です。 ちなみに今日は僕の誕生日でもあります。めでたい! 来年もきっと誕生日駆動アドベントカレンダーをやると思います。 この記事の特徴 この記事の目標は、以下のとおりです。 「これを読むことで最低限のPolarsの使い方を覚え、とりあえずすぐにPolarsを触れる」 QiitaにはPolarsの解説記事が上がっていますので、詳しい使い方はそちらをご確認ください。この記事ではあくまでPolarsを始める最初の一歩を想定しています。そのため、必要最低限の機能しか紹介していません。 Polarsとは Polarsとは、Pythonで大量のデータフレームを集計するときに使用するライブラリです。 その用途のスタンダートのライブラリ

                                本当に最低限だけ覚えて一瞬で使い始めるPolars入門 - Qiita
                              • BigQuery DataFramesを使ってみる | DevelopersIO

                                このデータをBigQuery DataFramesで扱います。内容としては{project_id}.data_set_test.jp_weatherのデータを使ってPandasで行う一般的な分析操作を行います。コードは以下になります。 import os import bigframes.pandas as bpd bpd.options.bigquery.project = os.environ.get("GOOGLE_PROJECT_ID") bpd.options.bigquery.location = "asia-northeast1" df1 = bpd.read_gbq("{project_id}.data_set_test.jp_weather") # df1 = bpd.read_gbq("SELECT * FROM {project_id}.data_set_test.j

                                  BigQuery DataFramesを使ってみる | DevelopersIO
                                • 超高速DataFrameライブラリー「Polars」について

                                  はじめに ここ最近、Polarsについて調べる中で色々と面白そうだと思い現在勉強中です。今回の記事では勉強内容の整理も兼ねて、Polarsの特色を紹介できればと思っています。 Polarsとは RustとPythonで使える[1]超高速("Blazingly fast")DataFrameライブラリー、つまりデータ解析に使えるライブラリーとなります。pandasに対するPolars(しろくま)であり洒落ているなと思います。 Core部分はRustで実装されており、インターフェースとしてPythonからも呼び出せるようになっています。RustからPythonパッケージへのビルドはmaturin(PyO3)を使っています。 環境 記事作成時のOSや言語、ライブラリーのバージョンは以下になります。関連が強そうなもののみ抜粋しています。 Ubntu 22.04 Python 3.10.6 (mai

                                    超高速DataFrameライブラリー「Polars」について
                                  • Announcing the Consortium for Python Data API Standards

                                    Announcing the Consortium for Python Data API Standards An initiative to develop API standards for n-dimensional arrays and dataframes 11 minute read Published: 17 Aug, 2020 Over the past few years, Python has exploded in popularity for data science, machine learning, deep learning and numerical computing. New frameworks pushing forward the state of the art in these fields are appearing every year

                                    • SQLの正規表現を、pandas(python)のqueryメソッドのstr.containsを使ってまとめてみた - Qiita

                                      SQLの正規表現を、pandas(python)のqueryメソッドのstr.containsを使ってまとめてみたPythonSQLDBpandasデータサイエンス はじめに 最近、プライベートでデータ分析のツールを作成している関係でpandasというpython外部ライブラリを活用している。が、いざ使って見ると、「pandas?なにそれかわいいの?」と動物のパンダ🐼を連想させるヤバい思考に行きつつある状況になる。 これはまずいと感じ、投稿者はpandasを探し求める旅に出る。 この記事は、pandasを飼いならすためにpandasをSQLっぽく考えるというデータサイエンス初学者に向けた記事となります。 そもそもpandasとは何か pandasとは、構造化された(表形式、多次元、潜在的に不均質)データと時系列データを簡単かつ直感的に操作できるように設計された高速で柔軟な表現力のあるデー

                                        SQLの正規表現を、pandas(python)のqueryメソッドのstr.containsを使ってまとめてみた - Qiita
                                      • Python client library  |  Google Cloud

                                        Send feedback Stay organized with collections Save and categorize content based on your preferences. Python Client for Google BigQuery Querying massive datasets can be time consuming and expensive without the right hardware and infrastructure. Google BigQuery solves this problem by enabling super-fast, SQL queries against append-mostly tables, using the processing power of Google’s infrastructure.

                                          Python client library  |  Google Cloud
                                        • 【python】iris(アヤメ)のデータセットをpandasとseabornを使って可視化する

                                          こんにちは.けんゆー(@kenyu0501_)です. サポートベクターマシンなどの機械学習を試してみたいと思ったときには,Scikit-learnのデータセットを使ってみるのは楽で良い方法だと思います. その中でも,提供されているアヤメのデータ(iris)は,よく使われるデータセットです. 今回は,そのアヤメのデータセットがどのような構造になっているのかや,実際にseabornやpandasを用いてグラフ化してみようと思います. アヤメのデータセットとは!?アヤメ(iris)は,もしかしたら機械学習を扱う世界中のデータサイエンティストに最も知られた花の品種かもしれないですね. なぜなら,1936年に「The use of multiple measurements in taxonomic problems (分類問題における複数箇所の測定の使用) 」(実際の論文PDFはこちら)で3種類の

                                            【python】iris(アヤメ)のデータセットをpandasとseabornを使って可視化する
                                          • pandasで外部データベースのデータを取得する

                                            この記事は GMOアドマーケティング Advent Calendar 2019 10日目の記事です。 はじめに GMOアドマーケティングのS.Sです。 簡単なデータの集計などのためにpandasを使う場面はあるかと思いますが、外部のデータベースの集計結果をcsvファイルに保存してjupyter notebookなどで読み込んでさらに集計や可視化などをするケースだとやや回りくどい感じがします。 ほかにもデータがMySQLやBigQueryなど複数箇所に分散しているケースで両方の結果を使って集計したい場面でかゆいところに手が届かないことがあります。 pandasやそのほかのライブラリなどを用いるとMySQLやBigQuery上のテーブルに対する集計結果をそのままDataFrameとして読み込める機能があるので今回の記事ではその機能について紹介したいと思います。 外部データベースからのデータ取得

                                              pandasで外部データベースのデータを取得する
                                            • dplyr のアレを Pandas でやる - Qiita

                                              Pandas と dplyr のより網羅的な対比は、既に記事が出ています。 私が参考にしたものをこの記事の末尾で紹介していますので、詳しくはそちらをご覧ください 。 前置き|テーブルのキーの扱い方の違い Pandas を使い始める前に理解すべきこととして、dplyr と Pandas ではテーブルのキーの扱い方に大きな違いがあります。この違いを認識していなかった私はかなり苦戦しました…… 以下の2点を理解して (覚悟して?) おくと、学習コストが多少減るのではないでしょうか。 Pandas ではテーブルのキーが Index という別オブジェクトで管理されていること Pandas ではキーや列名に階層構造を持たせられること dplyr におけるキーの扱い R のデータフレームにはテーブルのキーを表す方法として row names という仕組みが用意されています。しかし、dplyr (が利用し

                                                dplyr のアレを Pandas でやる - Qiita
                                              • Pandasを150倍速く動かす1行コード%load_ext cudf.pandas

                                                Pandasは、データ分析にPythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。 GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF(cuda based Dataframes)というものがあります。 v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。 このことによって、%load_ext cudf.pandasをjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。 GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。 RAPIDSのインストール 以下から、インストールするためのコードを取得できます。 今現在(2023年11月16日現在)、pipでインストールすると

                                                  Pandasを150倍速く動かす1行コード%load_ext cudf.pandas
                                                • https://www.aiprogrammers.net/entry/2020/05/07/190000

                                                    https://www.aiprogrammers.net/entry/2020/05/07/190000
                                                  • Pandasでnan値を削除、穴埋めするfillna、dropnaの使い方

                                                    簡単な欠損値の確かめ方 欠損値を削除する方法 基本的な使い方 全てが欠損値の行を削除する 削除したい列を指定する 変更を元のデータに反映させる 行あたりに残したいデータ数を指定 削除する方向を指定 欠損値を穴埋めする方法 基本的な使い方 列ごとに埋める値を変える 前後の値を使って穴埋めをする 平均値や最頻値などで穴埋め 個別に穴埋めする値を指定する まとめ 参考 実際のデータで分析を行うとデータが不完全で欠損値が含まれていることがあります。 欠損値の扱い方が変わるだけで分析の結果が変化する場合もあります。 そこで本記事では欠損値の処理をすることができるように 簡単な欠損値の確かめ方 欠損値を削除する方法 欠損値を穴埋めする方法 の3つについて解説していきます。 簡単な欠損値の確かめ方 とりあえず各列に欠損値があるかどうかを知りたい、というときはisnull関数とany関数の組み合わせとno

                                                      Pandasでnan値を削除、穴埋めするfillna、dropnaの使い方
                                                    • 空DataFrameの作成パターン : showeryのブログ

                                                      作成パターン空のデータフレームを作って、レコードを追加していくパターン新たに空のデータフレームを作成既存データフレームから空のデータフレームを作成行だけ確保した空のDataFrameを作って、後からカラムを加えていくパターン空のデータフレームを作って、レコードを追加していくパターン新たに空のデータフレームを作成 import pandas as pd cols = ['col1', 'col2'] df = pd.DataFrame(index=[], columns=cols) record = pd.Series(['hoge', 'fuga'], index=df.columns) for _ in range(5): df = df.append(record, ignore_index=True) print(df)

                                                        空DataFrameの作成パターン : showeryのブログ
                                                      • Jupyter+Pandasを使ったPostgreSQLパフォーマンス分析

                                                        本記事は PostgreSQL Advent Calendar 2019 の1日目の記事です。初日から遅れ気味ですすみません。。 久しぶりの記事ですが、最近はPostgreSQLをゴリゴリと触る感じでもなくなってきているため、本記事もゆるめの感じでお送りしたいと思います。 ■PostgreSQLの「パフォーマンス分析」とは PostgreSQLのパフォーマンス分析は、ざっくり言って、以下のようなステップで進められます。(PostgreSQLには限らないと思いますが) パフォーマンスの状況から、課題について仮説を設定する。 パフォーマンスに関連する何の情報を収集するかを決める。 情報を収集する。 収集した情報を加工し、分析しやすい形式に整える。 分析し、仮説を検証、ないしは何かを発見する。 より深堀り、確証を高めるために、再度情報集をしたり、データを加工、分析したりする。 何か対策を打って、

                                                          Jupyter+Pandasを使ったPostgreSQLパフォーマンス分析
                                                        • AWS LambdaでPython外部ライブラリのLayerを作る前に - Qiita

                                                          結論 先人によって既に作られてないか、いったん確認してみましょう。 keithrozario/Klayers 使い方 なぜかAWS公式でLayerが提供されていないライブラリ、pandasを例として使います。 (Numpy + Scipyがあるなら、pandasもあってくれていい気がしています) 0. 前準備 AWS Lambdaにアクセスして、[関数の作成]を押し、適当な名前の関数を作ります。 「ランタイム」はPython3.8を選びます。「アクセス権限」はノータッチでOKです。 1. pandasをインポートし、テストを作成 import pandasを追加し、[保存]を押します。 [テスト]を押し、「イベント名」に適当な名前を入れます。 下のJSONは特にいじらなくてOKです。 この時点でもう一度[テスト]を押すと失敗します。pandasが無いよと言われています。 それはそうという感

                                                            AWS LambdaでPython外部ライブラリのLayerを作る前に - Qiita
                                                          • Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得) - ビジPy

                                                            WEBスクレイピングとは、WEBサイトから情報を自動的に取得し、必要に応じて、情報の加工などを行うことです。取得したデータは、ファイルやデータベースに保存します。 WEBサイトに公開されている情報は、テキスト情報や画像、動画など様々な情報がありますが、その中の1つとしてテーブルに格納されている情報があります。 Pythonのデータ分析用ライブラリPandasではread_htmlという関数を利用して、WEBサイト上のテーブルに格納されているデータを非常に簡単に取得することができます。 また取得したデータはPandasのDataFrame(データフレーム)と呼ばれるデータ構造を利用してすぐに分析やグラフ化、データ保存することもできます。(DataFrameの詳しい説明は、こちら「Pandas DataFrameの基本」を参照ください。) これらPandasを用いたWEBスクレイピング方法は、

                                                              Pandasで超簡単!WEBスクレイピング(表・htmlのtable取得) - ビジPy
                                                            • [解決!Python]CSVファイルから読み込みを行うには(pandas編)

                                                              pandasが提供するread_csv関数を使って、CSVファイルなどからデータを読み込む方法を紹介する。 import pandas as pd from pathlib import Path filepath = 'test0.csv' print(Path(filepath).read_text()) #0.0,1.1,2.2 #3.3,4.4,5.5 #6.6,7.7,8.8 df = pd.read_csv(filepath) print(df) #   0.0  1.1  2.2 #0  3.3  4.4  5.5 #1  6.6  7.7  8.8 # ヘッダー行がないことを指定 df = pd.read_csv(filepath, header=None) print(df) #     0    1    2 #0  0.0  1.1  2.2 #1  3.3  4.4

                                                                [解決!Python]CSVファイルから読み込みを行うには(pandas編)
                                                              • pandas の SettingWithCopyWarning で苦労した話 - Qiita

                                                                pandasのSettingWithCopyWarningで苦労したので本当に恥ずかしいけれど自戒のためにメモ。 SettingWithCopyWarningとは 偉大なる先人がめちゃくちゃ詳しい説明を書いてくれているので読むべし。 pandasのSettingWithCopyWarningを理解する (1/3) ざっくり言っちゃうと参照渡し(でいいのかしら)があるがゆえの警告的なものだと解釈した。 元のデータの一部を抽出→そのうち一部へ代入した場合、「元のデータのその部分」を修正したかったのか、「一部を変更した新しいデータ」を作りたかったのかどっちかわからないよ、という感じ? 実際起こったこと 適当に値とかColumn名は変えているけれど、まあこんなDataFrameがあったとして print(df_origin) >>> yyyymm human monster animal 4901

                                                                  pandas の SettingWithCopyWarning で苦労した話 - Qiita
                                                                • Pythonで実装するアヒル本「StanとRでベイズ統計モデリング」 - Qiita

                                                                  アヒル本とは アヒル本「StanとRでベイズ統計モデリング」、ベイズ界隈では有名な書籍です。 ベイズ推定を実装したい、と思ったときにまず最初に手に取ると良いでしょう。 しかし、ベイズとは何かという点について解説している本ではないため、ベイズの枠組みで事例を積み重ねることで事後分布を更新できるために得られる利点などについて納得ができていない方は、ベイズ自体の基礎的な解説を読んでからチャレンジしたほうが良いと思います。 なぜPythonか 上記本のオフィシャルでは、タイトルどおり実装はRなんですね。 Pythonで実装したい方も多いと思います。 私もその一人でしたので、Python実装をつくりました。 Python実装にあたって Stanのインターフェイスについては、PyStanでRとほぼ変わらない使いごこちを実現できます。 一方で、データ整形についてはPandasを使うので、Rとはかなり異な

                                                                    Pythonで実装するアヒル本「StanとRでベイズ統計モデリング」 - Qiita
                                                                  • Data Manipulation: Pandas vs Rust

                                                                    Introduction Pandas is the main Data analysis package of Python. For many reasons, Native Python has very poor performance on data analysis without vectorizing with NumPy and the likes. And historically, Pandas has been created by Wes McKinney to package those optimisations in a nice API to facilitate data analysis in Python. This, however, is not necessary for Rust. Rust has great data performanc

                                                                    • GitHub - lux-org/lux: Automatically visualize your pandas dataframe via a single print! 📊 💡

                                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                        GitHub - lux-org/lux: Automatically visualize your pandas dataframe via a single print! 📊 💡
                                                                      • pandasのDataFrameを元に、画像入りの表をつくる - Qiita

                                                                        概要 機械学習をしていると、データの可視化をしたいことが多く、ときたま画像も入った表を出したくなることがある。 (↓例えばこんなの。画像認識したときのネコである判定スコアとか。) データ可視化はExcelとか、pandasとか使うことが多いが、数値や文字列程度ならいいものの、画像の入った表はパパっと作る方法がすぐには思いつかなかったりする。 今回はpandasのDataFrameを元データとして、画像入りの表をできるだけ簡単に作る方法を検討したので、メモしておく。 今回メモする方法は下記3つ。 1. DataFrame.to_html() を使ってHTMLにする 2. DataFrame.to_dict() とjinja2を使ってHTMLにする 3. DataFrame.to_excel() を使って作ったExcelファイルにopenpyxlで画像を入れる 1. DataFrame.to_

                                                                          pandasのDataFrameを元に、画像入りの表をつくる - Qiita
                                                                        • PANDASで効率よくデータ加工する事例 - Qiita

                                                                          初めに PANDASは、データサイエンティスト向けの最高のデータ処理ライブラリですが、数百万行のデータを取り扱う際にパフォーマンスの落とし穴を回避するように注意する必要があります。今回は仕事の中で学んできたいくつのテクニックを紹介したいと思います。 DataFrame PANDASは列志向のデータ構造なので、列ごとの処理は得意です。DataFrameの作成には「1レコード1行」形式で、1レコードに対してすべての測定可能の値(湿度、値段、座標など)はカラムごとに行うことを推奨します。 しかし、膨大なデータ加工において行ごとのforループ処理したらパフォーマンスを格段に落とす。本記事はパフォーマンスを考えて頭よくデータ加味を行う方法を紹介したいと思います。 まずはサンプル用のテーブルを作ります。 data = {'Team': ['Tiger', 'Tiger', 'Rabbit', 'Rab

                                                                            PANDASで効率よくデータ加工する事例 - Qiita
                                                                          • pandasによる時系列データ分析の初歩

                                                                            はじめに GMOアドマーケティングのS.Sです。 プロダクトに機能追加などを行った時に、プロダクトの各種指標にどのような影響があったか簡単に調べたいことがあります。 そこで今回はpandasを使って時系列データをふわっと分析する方法についてみていきたいと思います。 データフレームの作成 はじめに分析を行う対象となるダミーデータを用意します。 ダミーデータは二つのグループ(AとB)について、2020-04-01から2020-05の下旬のある日(具体的には記事を書いた日)まで得られているとします。 import numpy as np import pandas as pd np.random.seed(0) dates = pd.date_range("2020-04-01", pd.to_datetime("today"), freq="1D") rA = np.random.normal

                                                                              pandasによる時系列データ分析の初歩
                                                                            • Kaggleで書いたコードの備忘録その1~データ分析で使った手法一通り~(可視化、データ加工、検証、特徴量抽出、モデル、AutoML等) - Qiita

                                                                              初心者ながらKaggleに挑戦した時のコードを備忘録として残しておきます。 ・Kaggle関係の記事 Kaggleのタイタニックに挑戦してみた(その1) Kaggleのタイタニックに挑戦してみた(その2) Kaggleで書いたコードの備忘録その1(ここ) Kaggleで書いたコードの備忘録その2~自然言語処理まとめ~ KaggleタイタニックでNameだけで予測精度80%超えた話(BERT) 1.データ import 全体的に使うライブラリです。 各項目で使うライブラリはそちら側でimportを記載しています。

                                                                                Kaggleで書いたコードの備忘録その1~データ分析で使った手法一通り~(可視化、データ加工、検証、特徴量抽出、モデル、AutoML等) - Qiita
                                                                              • Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った - CUBE SUGAR CONTAINER

                                                                                最近は Polars が気に入っていて、主にプライベートで使っている。 ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。 そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブラリかというと、現時点の機能では Pandas の category_encoders 1 のサブセットに相当する。 より具体的には、scikit-learn のスタイルで書かれた特徴量抽出をするための基本的なエンコーダを実装してある。 特徴としては、同じ処理を完了するまでにかかる時間が短いこと。 Pandas のエコシステムで使われるフレームワークとパフォーマンスを比較したグラフを以下に示す。 グラフから、比較対象の概ね 1/10 以下の時間で処理を完了できることが分かる。 詳細については、このエントリの後半に記述

                                                                                  Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った - CUBE SUGAR CONTAINER
                                                                                • 【PythonでGIS】GeoPandasまとめ - Qiita

                                                                                  使用するデータ こちらの記事と同じデータを使用して、実装を進めます 必要ライブラリのインストール トラブルシューティング含め、こちらの記事を参照ください 具体的な実装例 Shapefileの読込、処理、保存、表示に分けて、 各ユースケースの実装法を解説します 読込1:Shapefileの読込 Shapefileの読込には、read_fileメソッドを使用します。 # 必要ライブラリの読込(読込以外で使用するライブラリも含みます) import geopandas as gpd from shapely.geometry import Point import pyproj import pandas as pd import numpy as np import re # 入力ファイルのパス DAM_PATH = './W01-14_GML/W01-14-g_Dam.shp' # 国交省ダ

                                                                                    【PythonでGIS】GeoPandasまとめ - Qiita

                                                                                  新着記事