タグ

データサイエンスとPythonに関するmisshikiのブックマーク (23)

  • VS CodeのPythonデータサイエンス拡張パック、リリース 4つの拡張機能で何ができる?

    Microsoftは2024年9月18日(米国時間)、「Visual Studio Code」の「Python Data Science Extension Pack」(Pythonデータサイエンス拡張パック)をリリースしたと発表した。 この拡張パックは、Pythonでデータサイエンス作業を行うための最も一般的で便利なVisual Studio Codeの拡張機能をまとめたものだ。 データの準備、分析の実施、結果の可視化から、機械学習(ML)モデルのプロトタイピング、評価、トレーニングまで、データサイエンスのワークフローに必要なツールをワンストップで提供する。 PythonGitHub Copilotなど4つの拡張機能 関連記事 「GitHub Copilot Extensions」パブリックβ版、提供開始 拡張機能を作れるツールキットも利用可能に GitHubは、「GitHub Cop

    VS CodeのPythonデータサイエンス拡張パック、リリース 4つの拡張機能で何ができる?
    misshiki
    misshiki 2024/09/25
    MicrosoftはVisual Studio Code向けに「Pythonデータサイエンス拡張パック」をリリース。Python、Jupyter、GitHub Copilot、Data Wranglerの4つの拡張機能をまとめ、データサイエンスのワークフローを一括サポートする。https://t.co/qPloXH164Z
  • オブジェクト指向に学ぶデータサイエンスのコーディング術

    記事中で「オブジェクト指向」という言葉を使っていますが、決して「オブジェクト指向」で実装を進めているわけではありません。あくまでもオブジェクト指向の一部の考え方を参考に、DS職のコーディングを考えるという立ち位置です。来のクラスの使い方として適切である保証はなく、「一つの実現方法の紹介」である旨ご了承ください。 多くのDS(データサイエンス)職が書くソースコードは、そのままプロダクトに載せることが難しいものが多いです[3]。この理由は、DS職に求められる成果物や職掌がプロダクト開発チームなどとは異なるからであり、ある程度は仕方がないと認識しています。しかしながら、開発したアルゴリズムや機械学習モデルをプロダクトに載せたり、分析コードを他人[4]に引き継いだりする際には、「良いコード」で実装されているに越したことはありません。DS職の人が「良いコード」を書くためにはどうすれば良いかを考え続

    オブジェクト指向に学ぶデータサイエンスのコーディング術
    misshiki
    misshiki 2024/07/25
    “あくまでもオブジェクト指向の一部の考え方を参考に、DS職のコーディングを考えるという立ち位置です。...データ分析のコードに関して、今までたくさんの失敗をしてきた私が現時点で考えていることの一部を紹介”
  • [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法

    連載目次 シリーズと連載について シリーズ「Pythonデータ処理入門」は、Pythonの基礎をマスターした人を対象に以下のような、Pythonを使ってデータを処理しようというときに便利に使えるツールやライブラリ、フレームワークの使い方の基礎を説明するものです。 Pythonだけを覚えれば何でもできるわけではない、というのはハードルが高く感じられるかもしれません。それでもプログラミング言語に関する基礎が身に付いたら、後は各種のツールを使いながら、言語とツールに対する理解を少しずつ、しっかりと深めていくことで自分がやれることも増えていきます。そのお手伝いをできたらいいな、というのがシリーズの目的とするところです。 なお、連載では以下のバージョンを使用しています。 Python 3.12 pandas 2.2.1 pandasとは pandasはデータ分析やデータ操作を高速かつ柔軟に

    [pandas超入門]Pythonでデータ分析を始めよう! データの読み書き方法
    misshiki
    misshiki 2024/04/05
    “Pythonでデータ処理を始めようという人に向けて、pandasとは何か、インストール、データセットの読み込みと書き込み、簡単なメソッド呼び出しまでを説明します。”
  • Pythonデータサイエンスハンドブック 第2版

    Pythonのデータサイエンス用のツールを使いこなすための実用的な情報が詰め込まれたリファレンスの待望の改訂版です。IPythonとJupyter、NumPy、pandas、Matplotlib、scikit-learnを利用し、データの操作、可視化、行列計算、時系列解析、統計分析、機械学習、データモデルの構築、複雑な科学計算まで、幅広いトピックをカバー。それぞれのトピックについて、押さえておくべき基、tips、便利なコマンドなどを紹介します。Pythonでデータ処理を行う人にとってはいつも手元に置いておきたい「使える」一冊です。 『Python Data Science Handbook, Second Edition』への称賛 訳者まえがき はじめに Ⅰ部 Jupyter:Pythonより優れたPython 1章 IPython、Jupyter入門 1.1 IPythonシェルの起動

    Pythonデータサイエンスハンドブック 第2版
    misshiki
    misshiki 2024/01/24
    “2024年02月17日 発売予定”
  • 分類問題のデータ不均衡を解消するSMOTE(Python版)- その1:SMOTEの基礎と imbalanced-learn の使い方 -

    分類問題のデータ不均衡を解消するSMOTE(Python版)- その1:SMOTEの基礎と imbalanced-learn の使い方 -
    misshiki
    misshiki 2024/01/04
    “データ不均衡問題を解消するための強力なテクニックであるSMOTE(Synthetic Minority Over-sampling Technique)とそのバリエーションについて紹介するとともに、Pythonのコード例を示します。”
  • Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)

    説明変数Xを主成分分析(PCA)を行い、その主成分で回帰モデルを構築するのが、主成分回帰(PCR)です。 主成分は、主成分の分散が最大になるように作成され、できるだけ元の説明変数Xのもっている情報量を保持しようとします。 この主成分は、目的変数Yとは無関係に主成分分析で算出されます。 回帰モデルを構築するという視点で考えると、できれば目的変数Yと相関の高い主成分であると嬉しいでしょう。 それを実現するのが、部分的最小2乗回帰(PLS)です。 主成分は、目的変数Yと主成分の共分散が最大になるように作成され、目的変数Yを考慮したものになります。 今回は、「Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)」というお話しをします。 なぜ、PCRとPLSを使うといいのか 回帰モデルを構築するとき、マルチコという推定した係数がおかしくなる現象が起こることがあります。その原因の1つが

    Pythonによる主成分回帰(PCR)と部分的最小2乗回帰(PLS)
    misshiki
    misshiki 2023/12/08
    “主成分回帰(PCR)と部分的最小2乗回帰(PLS)は違いは…… PCR:主成分が、主成分の分散が最大になるように作成 PLS:主成分が、目的変数Yと主成分の共分散が最大になるように作成”
  • [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう

    連載概要 連載はPythonについての知識を既にある程度は身に付けている方を対象として、Pythonでデータ処理を行う上で必須ともいえるNumPyやpandas、Matplotlibなどの各種ライブラリの基的な使い方を学んでいくものです。そして、それらの使い方をある程度覚えた上で、それらを活用してデータ処理を行うための第一歩を踏み出すことを目的としています。 前回はCalifornia Housingデータセット(カリフォルニアの住宅価格のデータセット)の中でもMedInc列とMedHouseVal列に着目して、箱ひげ図とヒストグラムを使い、それらを可視化してみました。今回はそれらのデータの間に関連があるかどうかを、相関係数と散布図を使って考えてみましょう。 なお、今回は相関係数の可視化にseabornというライブラリを用います。これはPythonには標準で付属していないので「pip

    [NumPy超入門]相関係数とヒートマップ、散布図を使ってデータセットをさらに可視化してみよう
    misshiki
    misshiki 2023/12/08
    NumPyでやってみる“相関係数やそれを可視化したヒートマップ、散布図”
  • PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT) - Qiita

    PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT)PythonDashPanelStreamlitChatGPT 皆さん、こんにちは!Python Advent Calender2023の6日目担当の小川英幸(X: ogawahideyuki)です。 データから洞察を得る過程で、その発見を他の人と共有し、さらなるインサイトを得ることは非常に価値があります。そのような役割を検討した際に、既存のツールでは物足りない一方、「アプリを一から作るのは大変だな…」と感じたことはありませんか? ここで登場するのがData Appsです。Pythonだけで手軽にデータアプリを作成できるこれらのツールは、データ分析者にとって強力な味方。特にStreamlit、Dash、Panelを、簡単に使えるフレームワークとして、私は注目し、活

    PythonのData Appsフレームワーク Streamlit, Dash, Panel を比較(With ChatGPT) - Qiita
    misshiki
    misshiki 2023/12/07
    “チーム内での共有、お客さんへのプレゼンみたいなのはStreamlitが良いのではないかと思っています。...あと、私としてはReactとの懸け橋にDashはお勧めかなぁと思っています。”
  • [NumPy超入門]データ処理の最初の一歩! 基本統計量からデータの特徴を把握しよう

    [NumPy超入門]データ処理の最初の一歩! 基統計量からデータの特徴を把握しよう:Pythonデータ処理入門(1/2 ページ) データセットがどのような特徴を持つのか、その基は最大値/最小値/平均値/中央値/最頻値/標準偏差などの基統計量を使って調べられます。実際のデータを使って、これを体感してみましょう。

    [NumPy超入門]データ処理の最初の一歩! 基本統計量からデータの特徴を把握しよう
    misshiki
    misshiki 2023/10/27
    “平均値や最大値、最小値などを眺めて、このデータセットにはどんな特徴があるのかをざっくりと見てみましょう。基本統計量の確認は、データ処理において最初の一歩ともいえる要素です。”
  • データ分析の基礎 - Qiita

    1. データ分析の概要と目的 データ分析とは、大量のデータから有用な情報や知識を抽出するプロセスです。 このプロセスには、データの収集、前処理、探索、モデリング、評価、そして最終的な知識の抽出が含まれます。 データ分析の主な目的は以下の通りです ビジネスの意思決定をサポートする 新しい市場の機会を発見する 顧客の行動や傾向を理解する 製品やサービスの改善 予測や予測モデリングを行う 2. Pythonにおけるデータ分析のライブラリの紹介 Pythonデータ分析のための多くのライブラリを持っています。 以下はその中でも特に人気のあるライブラリです Pandas: データの前処理や探索的データ分析に使用されるライブラリ NumPy: 数値計算を効率的に行うためのライブラリ Matplotlib & Seaborn: データの可視化に使用されるライブラリ Scikit-learn: 機械学習

    データ分析の基礎 - Qiita
    misshiki
    misshiki 2023/09/26
    “ Pythonにおけるデータ分析”
  • [NumPy超入門]Pythonでのデータ処理をNumPyから始めよう!

    連載目次 シリーズと連載について Pythonは現在とてもよく使われるプログラミング言語の一つです。特に人工知能機械学習、データ処理やデータ分析といった分野においてはPythonとそのライブラリはとてももてはやされています。ですが、Pythonの基礎を学んだだけで今述べたような分野に乗り出していくのは少し大変なことでもあります。 プログラミング言語だけを覚えても、その言語で何かを行うには十分ではないことはよくあります。特に複雑なことをやろうと思ったら。何かを行うためには、さまざまなライブラリやフレームワークの使い方も学ぶ必要があります。あるいは、自分でそうしたライブラリやフレームワークを構築する方法もありますが、そのためにはかなりの労力が必要となるでしょう。 何かを実現するためにその道具(ライブラリやフレームワーク)から作り始めるのは理想的です。が、例えば数値計算やデータの処理、可視

    [NumPy超入門]Pythonでのデータ処理をNumPyから始めよう!
    misshiki
    misshiki 2023/06/09
    “Pythonでデータ処理を行うために必要な知識や実際のデータ処理の方法を読者の皆さんと勉強していく。NumPy、pandas、matplotlib、 Pythonによるデータ処理。
  • プロでもよくある線形回帰モデルの間違い - Qiita

    最近、データサイエンスが流行っていることもあり、線形回帰モデルについても解説記事を見かけることが多くなりました。情報にアクセスしやすくなったのはいいことだと思うんですが、ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試みたいと思います。全体的にあまり厳密ではありませんが、線形回帰モデルを学びたての方には有益な記事になるかなと思います。 あと、私も勉強中の身なので、間違いがあったらご指摘いただけたら嬉しいです。 題 さて、よくある間違いとは以下のような解説です。 線形性の仮定が満たされていないので、線形回帰モデルを使ってはいけない 残差が正規分布&等分散ではないので、線形回帰モデルを使ってはいけない 回帰係数に対するt検定の結果をもとに、p値が大きい説明変数を除外する 多重共線性があるとよくないので、変数間で相関が強い、もしくはVIF値が大きい変数を除外する AICが小さ

    プロでもよくある線形回帰モデルの間違い - Qiita
    misshiki
    misshiki 2023/01/06
    “ずっと以前から間違いや解説の不足が多い理論なので、私なりに解説を試み”よくある間違い集。ブコメを読むと内容については気を付けた方がよさそう。
  • PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball

    で言えば同じ学年のレジェンド, アルバート・プホルスが通算700号塁打を打って驚いている人です. ここ最近, (休んでいる間のリハビリがてら*1)PyCon JP 2022の準備および, 来年以降のMLBを楽しく見るために野球データ基盤(ちなみにメジャーリーグです)を作っていたのですが, それがいい感じに完成しました. アプリとデータ基盤をどのように作ったのか どのような処理, どのようなユースケースで動かしているのか これらをどのようなアーキテクチャで実現したのか 以上の内容をこのエントリーに書き残したいと思います. なおこのエントリーは, PyCon JP 2022のトーク「Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて(2022/10/15 16:00-16:30)」の予告編でもあります. なので, 後日のトークをお楽しみに

    PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った - Lean Baseball
    misshiki
    misshiki 2022/09/27
    “DashというPythonの(自称)ローコードなダッシュボード構築Frameworkで本体(画面と遷移)を構築, JavaScriptとHTMLは一切実装せず. グラフはPlotlyを使って描画. ホスティングはCloud Run, 認証認可は今の所Basic認証”
  • 「Python」と「Google Colaboratory」で株価データ分析に挑戦

    Python」と「Google Colaboratory」で株価データ分析に挑戦:「Python」×「株価データ」で学ぶデータ分析のいろは(1) 日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく連載。第1回はPythonを実行する環境とデータの前準備について。 はじめに 連載第1回は「Google Colaboratory」でサンプルプログラムを実行するための環境を用意する方法や利用するPythonのライブラリを説明します。「Google Chrome」と「Googleアカウント」を用意して読み進めてください。 なお、連載の趣旨がデータ分析であるため、Pythonの言語仕様や文法の詳細を割愛する場合があることをご了承ください。 Google Colaboratoryの準備 Google Colaboratoryとは、Googleが提供するブラウザ上でPy

    「Python」と「Google Colaboratory」で株価データ分析に挑戦
    misshiki
    misshiki 2021/07/28
    “日々変動する株価データを題材にPythonにおけるデータ分析のいろはを学んでいく本連載”
  • アナリティクス(データサイエンス)練習問題集 | analytics

    はじめに 作者のページ My HP 世の中には例題を読ませるだけの教育が氾濫しているが、当にできるようになるためには、練習が欠かせない。ここでは、Pythonを用いたデータアナリティクスを当に自分でできるようになるための、練習問題を集めた。 できれば解答をコピペするのではなく、自分の力で考え、自分で試行錯誤をし、自分で書いてみることを勧める。 Python基礎 (1) Python基礎 (2) Python基礎 (3) Jupyter入門 Jupyerでのデバッグのやり方 数値計算モジュール NumPy データ解析モジュール Pandas 可視化モジュールmatplotlib 可視化モジュール plotly データを可視化するための方法 (Plotly Express) 科学技術計算モジュールSciPy statsmodelsを用いた統計分析 scikit-learn を用いた機械学習

    misshiki
    misshiki 2021/03/31
    Pythonの各種ライブラリ(データ分析など)の使用法を練習問題で学べる。対応⇒ Python、Jupyter、NumPy、Pandas、matplotlib、plotly、SciPy、statsmodels、scikit-learn、fastai、Prophet、NetworkX、PuLPとGurobi、PyCaretなど
  • Comet.ml で機械学習のログをクラウドに保存する

    この記事は CAMPHOR-アドベントカレンダー2020 6日目の記事です。 みなさんこんにちは、ほないです。 私は今年度から大学で自然言語処理の研究に取り組んでいて、データセットを作ってニューラル言語モデルをトレーニングして評価する機会がたくさんありました。 最近はPyTorch, TensorFlow, scikit-learnなど様々な機械学習フレームワークによって、ニューラルネットワークモデルの実装が簡単に行えるようになっています。 今回は、そういったフレームワークで機械学習をするときに便利なサービス「Comet」について紹介します。 機械学習とログと可視化 研究などで機械学習をするときに大切なのが、記録(ログ)を取ること、そしてグラフなどで可視化することです。 記録といっても、ただテスト結果をPrintして終わりというわけにはいきません。 どのデータセットを使ったか、モデルの構成

    Comet.ml で機械学習のログをクラウドに保存する
    misshiki
    misshiki 2020/12/07
    “Comet は、 データサイエンティストや研究者のための、機械学習の記録・可視化のためのサービス です。”
  • [Python]データ分析業務で使いそうなコードまとめ(随時更新) – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに 仕事で使いそうなPythonのコードを残しておくドキュメントが欲しいなと思ったので、よく使うものをこちらに貯めていこうと思います。まだ19個しかないですが、30個を目標に追記していきます。 フォーマットとしては、 1.やりたい処理 2.コード 3.参考情報のリンク の3つを1セットにしています。 まずは、自分自身や周りで仕事をしている人が楽をできるドキュメントになればいいなと思って作っていきます。 目次 ・重複削除 ・階級のデータを作りたい ・再起的にリスト

    [Python]データ分析業務で使いそうなコードまとめ(随時更新) – かものはしの分析ブログ
    misshiki
    misshiki 2020/11/05
    pandasなどのデータ分析向けTIPS集。
  • Top 38 Python Libraries for Data Science, Data Visualization & Machine Learning - KDnuggets

    misshiki
    misshiki 2020/11/04
    データサイエンス、データ視覚化、機械学習のためのトップPythonライブラリ。38位までの独自ランキング。知らないのが結構ある。
  • DataCamp「Data Scientist with Python」コースの備忘録 - Qiita

    はじめに DataCamp「Data Scientist with Python」コースを修了したので備忘録として残しておく。内容的には入門コースだが、それなりにボリュームがあり、学習した順から忘れていきそうなのと、Numpy/Pandasを中心の多くのパッケージ・関数を扱ったが、それらも自身のインデックスとして振り返れるようにするために。。 個人の自由課題として きっかけとして元々、個人の夏の自由課題的に、普段業務であまり触れない範囲で、今後の事業・技術とシナジーが生まれそうなものを何かやりたいなと思い、いくつかの言語・領域を検討した結果、内容やボリュームも手頃そうであったDataCamp「Data Scientist with Python」コースに決めてみた。(そのため、半分趣味に近く、Pythonに長けてる訳でもなく、ましてやデータサイエンティストでもないので、あしからず。) 「D

    DataCamp「Data Scientist with Python」コースの備忘録 - Qiita
  • データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA

    みなさんこんにちは。くにです。 データ分析の世界に足を踏み入れてから9年が過ぎました。 分析実務未経験でキャリアチェンジできたのは幸運としか言えませんが、ある意味無知だったからこそ無謀な挑戦ができたのかもしれません。この挑戦の泥臭い記録は、この記事に書きました。 ポジションは変われど、データを扱う仕事をまだ続けています。 私は実務で手を動かしつつ、不格好に失敗しながら学んできました。わからないことにぶつかるたびにを買い、そのでわからないことがあればまた屋に行き、自分が少しでも理解できそうなを探して買いました。そして、気になる参考文献があれば、それも買って読んでみる…。 こんな生活を続けているうちに、部屋がだらけになってしまいました。 正直に言って読み切ったという実感のあるはありません。しかし、実務で何かしらお世話になったは数多くあり、そういうは手放さずに手元に置いています。

    データサイエンティスト生活でお世話になった本|武田邦敬|Kunihiro TAKEDA
    misshiki
    misshiki 2020/08/17
    丁寧にコメントされている印象の本紹介。“データサイエンスの全体像を掴む、統計学、...機械学習、...テーマ別:自然言語処理...”