並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 70件

新着順 人気順

read_csvの検索結果1 - 40 件 / 70件

  • MOONGIFT|オープンソース・ソフトウェア紹介を軸としたITエンジニア、Webデザイナー向けブログ

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました Tank Vs Zombie Game Built in Ruby - Rubyで書かれた戦車 vs ゾンビゲーム Jul 16, 2021 - 1 min read Kopia - マルチベンダー対応のバックアップソフトウェア Jul 16, 2021 - 1 min read Polyfoto - モザイク画像を作成するPythonスクリプト Jul 15, 2021 - 1 min read SwiftLaTeX - WebベースのLaTeXエディタ Jul 15, 2021 - 1 min read Div.js - divタグだけでHTMLページを作成できる? Jul 14, 2021 - 1 min read ASCIIFlow - アスキーアート用ドローアプリ Jul

      MOONGIFT|オープンソース・ソフトウェア紹介を軸としたITエンジニア、Webデザイナー向けブログ
    • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

      追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

        Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
      • Pythonでできることを、現役エンジニアが解説してみた - DAINOTE

        プログラミングを知らない人でも、Pythonという言葉を聞いたことがある人は多いのではないでしょうか。 書店などに行くと、Pythonに関する書籍があふれていますが、プログラミングを知らない人からするとPythonを学ぶと何がうれしいのか、 さっぱりわかりませんよね。 そこで今回は、Pythonを学ぶとどんなことができるようになるのかを、普段プログラミングに触れていない人にもわかりやすくまとめてみたいと思います。一緒にどうやればできるようになるのかについても解説します。 ちなみに!先に言っておきますが、Pythonができると めちゃくちゃ 便利です!また、初学者でも学びやすい言語なので、エンジニアではない人でも非常に重宝します。 このツイートに書いたとおり、Python使えると本当に便利なんですよね~ では、Pythonではどういうことができるのでしょうか。結論からいうと、 Webスクレイ

          Pythonでできることを、現役エンジニアが解説してみた - DAINOTE
        • 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita

          【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~Pythonスクレイピングpandasデータ分析 やりたいこと はてなブックマークで、Python記事を検索しトレンドを分析 はてなブックマークにSeleniumでログイン ブックマーク数をスクレイピング 時系列比較を行う バズるタイトルを分析 実装方法 詳しくは下記記事を参考にしてください。Pandasを利用したデータ分析まで載せています。 【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ 実装 from selenium import webdri

            【Python】スクレイピング→データ収集→整形→分析までの流れを初心者向けにまとめておく ~Pythonに関するはてな記事を10年分スクレイピングし、Pythonトレンド分析を実際にやってみた~ - Qiita
          • 最近のポケモンはデジモンっぽいのか、ディープラーニングに聞いてみた - Qiita

            はじめに ポケモンについて何となく知っている人向けの記事です(デジモンは知らなくてOK) 3月ごろにポケモンたかさおじさんが集計したアンケートの分析をお手伝いしたところ、アンケートの自由記述回答の6353件中、155件もデジモンについて言及するコメントがあった。 「デジモンと区別付かないよね」 「もはやポケモンじゃない…。デジモン…。昔のデザインに戻ってほしいなぁ…。。。」 「主観ですが、伝説のポケモンが角張った印象で、デジモンのような印象を受ける。」 「全体的に毛がなさそうなツルッとしたフォルムの子達が増えた気がします。デジモンっぽい」 「デザインがごちゃごちゃしすぎて子供が描くのが難しい デジモンに近くなってきている」 「ダイパまでのデザインがポケモンっぽいデザイン。それ以降はデジモンみたいな雰囲気。」 私は幼少期からポケモンには触れてきたが、デジモンにはあまり縁がなかったため、 デジ

              最近のポケモンはデジモンっぽいのか、ディープラーニングに聞いてみた - Qiita
            • PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita

              ※本記事で言及しているReflexのdiscord内に日本語チャンネルをつくってもらいました。もし、興味をもった人がいたら参加してみてください。 1.PythonだけでWebアプリをつくるライブラリが増えている 最近(2024.05)、Python界隈ではPythonだけでWebアプリが作れるライブラリが増えています。詳しくは他の記事を参照してもらえればと思います。 以下の記事がとても参考になりました。ありがとうございます。 2.ライブラリの分類 こうしたライブラリも大きくわけて2つの種類があるように思います。 ①データ解析の結果を表示するダッシュボードライブラリ ②汎用的なWebアプリをつくるローコードライブラリ ①ダッシュボード系ライブラリ たとえば、上記の記事にも出てきますし、ネットでもかなり情報の多い、StreamlitやDashは項番1のダッシュボードライブラリに該当すると思いま

                PythonだけでWebアプリが作れるライブラリが増えている(2024.05) - Qiita
              • 【Day-14】株価や仮想通貨で使える、5つのテクニカル分析を解説&Pythonで実装してみた - プロクラシスト

                データ分析ガチ勉強アドベントカレンダー 14日目。 時系列データでまず思いつくのは、株価のチャートですよね。 また、最近はやっている仮想通貨。私も最近coincheckに入金しました。 ビットコイン取引所 "coincheck" やっぱ、実際にお金が絡むとちゃんと勉強しようって言う気になる!笑 せっかくチャートを見るわけだし、その見方について勉強しておこうと思いました。 そしてせっかくなので、自分で実装してどういう仕組みなのかまで知っておこうと思いました。 理系だからね、分からないものを使うのは嫌だからね。 というわけで、Python(主にPandasとMatplotlibを用いながら)でテクニカル指標についてやっていきます。扱うデータは三年分の日経平均株価。 指標について知りたい人も、自分で実装してみたいという人もどうぞ。 テクニカル分析とファンダメンタル分析 実装において ローソク足

                  【Day-14】株価や仮想通貨で使える、5つのテクニカル分析を解説&Pythonで実装してみた - プロクラシスト
                • 【LINE Bot x AI】顔認識を利用したAI Bot「スケベ博士」をPythonとGoogle Apps Scriptで作ろう|Dai|note

                  ******************************************************* 【お得なマガジンもあります】 セット割で、3000円ほどお得になります。現在、3本のチュートリアルが利用できます。 LINE Botの作成を学べるコースです。以下のチュートリアル3点が、セット割で購入することができます。 ・【AIプログラミング】LINEに画像を送ったら自動で文字起こししてくれる機械学習アプリを作ろう ・スケベAI「スケベ博士」をPythonとGoogle Apps Scriptで作るスケベ・チュートリアルを公開します ・JavaScriptだけで書ける!LINEからDMMのサンプル動画が見れる、「変態コンシェルジュ」を作ろう! ******************************************************* #未経験からスケベエンジ

                    【LINE Bot x AI】顔認識を利用したAI Bot「スケベ博士」をPythonとGoogle Apps Scriptで作ろう|Dai|note
                  • 機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita

                    はじめに 私はこれまで機械学習のパラメータチューニングに関し、様々な書籍やサイトで学習を進めてきました。 しかしどれもテクニックの解説が主体のものが多く、 「なぜチューニングが必要なのか?」 という目的に関する記載が非常に少なかったため、体系的な理解に苦労しました。 この経験を後世に役立てられるよう、「初心者でも体系的に理解できる丁寧さ!」をモットーに記事にまとめたいと思います。 具体的には、 1. パラメータチューニングの目的 2. チューニングの手順とアルゴリズム一覧 3. Pythonでの実装手順 (SVMでの分類を例に) の手順で解説を進めます。 独自解釈も含まれるため、間違っている点等ございましたら指摘頂けると有難いです。 なお、文中のコードはこちらのGitHubにもアップロードしております。 2021/9/6追記:LightGBMのチューニング実行例追加 以下の記事に、Ligh

                      機械学習のパラメータチューニングを「これでもか!」というくらい丁寧に解説 - Qiita
                    • [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita

                      TensorFlowで株価予想シリーズ 0 - Google のサンプルコードを動かしてみる 1 - 終値が始値よりも高くなるかで判定してみる 2 - 日経平均225銘柄の株価予想正解率ランキング〜 3 - 日本3506銘柄の株価予想ランキング 4 - 実際に売買したら儲かるのかシミュレーションしてみる 5 - 大きく上がると予想されたときだけ買ってみるシミュレーション 6 - 学習データの項目を増やす!隠れ層のサイズも増やす! 7 - 株価が何%上昇すると予測したら買えばいいのか? 8 - どの銘柄を買うか 9 - 年利6.79% 前置き 猫も杓子もディープラーニングディープラーニング。なにそれ美味いの? って感じだけど、 2015年末に Google が書いた 「Machine Learning with Financial Time Series Data on Google Clo

                        [TensorFlowで株価予想] 0 - Google のサンプルコードを動かしてみる - Qiita
                      • データ分析で頻出のPandas基本操作 - Qiita

                        はじめに 機械学習や深層学習が人気の昨今ですが、それらのモデルの精度に最もクリティカルに影響するのはインプットするデータの質です。データの質は、データを適切に把握し、不要なデータを取り除いたり、必要なデータを精査する前処理を行うことで高めることができます。 本頁では、データ処理の基本ツールとしてPandasの使い方を紹介します。Pandasには便利な機能がたくさんありますが、特に分析業務で頻出のPandas関数・メソッドを重点的に取り上げました。 Pandasに便利なメソッドがたくさんあることは知っている、でもワイが知りたいのは分析に最低限必要なやつだけなんや…!、という人のためのPandasマニュアルです。 また、単に機能を説明するだけでは実際の処理動作がわかりにくいため、ここではSIGNATE(旧DeepAnalytics)のお弁当の需要予想を行うコンペのデータを拝借し、このデータに対

                          データ分析で頻出のPandas基本操作 - Qiita
                        • 金融データのPythonでの扱い方 - 今日も窓辺でプログラム

                          はじめに Udacityというネット上のビデオを視聴する形で受講できる講義を提供しているサイトがあります。 Learn the Latest Tech Skills; Advance Your Career | Udacity サイトや講義は英語なのですが、その中で Machine Learning for Tradingという講義を見つけました。 この講義は主に3つのパートに分かれています 金融データをPythonで操作する コンピュータを使った投資 取引に使う機械学習アルゴリズム 1つ目のパートを視聴したので、Pythonの基本的な知識の部分で知らなかった点を、実際のデータを操作する中で紹介しようと思います。 2つ目と3つ目はまた後日にでも。。 目次 はじめに 目次 今回使用するデータとJupyter Notebook データの読み込み 移動平均の計算 pandasのrollingを使

                            金融データのPythonでの扱い方 - 今日も窓辺でプログラム
                          • 国会議員のTweet40万件分析して支持すべき政治家を探してみた - エルの楽園

                            新型コロナ禍が我が国の政治の深刻な問題をあぶり出しています。一市民としては支持する政治家を本腰入れて検討しなければいけません。 個人的な問題意識は主に「労働」と「財政」にありますので、これらの問題に積極的に取り組んでくれる方がいいです。今回のコロナ禍でこの2つは本当に切実な問題になりました。反対に「脱原発」とか「改憲」はやめてほしいかな……「財政再建」とかも当然ムリ!あ、もちろん国政の話です。 そんな訳でデータの力で問題意識の合う現職国会議員を探してみました。使うのはみんな大好きPython3 on Google colab(Jupyter notebook)です。技術的な話を飛ばして結論だけ見たい方はこちらからどうぞ。 やったこと まずはTwitterをやっているすべての現職国会議員のTweetを一人当たり最新1000件ほど取得します。現職国会議員のアカウント一覧は国会議員いちらんリスト

                              国会議員のTweet40万件分析して支持すべき政治家を探してみた - エルの楽園
                            • CSVの処理で使えそうなコマンドラインツール(column, textql, csvkit, xsv, visidata, csvtotable, daff, tabview) - もた日記

                              column textql csvkit xsv visidata csvtotable daff tabview CSV(またはTSV)を処理するときにはcut, sort, awk, paste, joinといったコマンドを使うことが多いが、CSVの処理で使えそうなコマンドラインツールを簡単に試してみる。 テスト用のCSVデータは下記ページで作成した。 Mockaroo - Random Data Generator and API Mocking Tool | JSON / CSV / SQL / Excel column以外はGitHubのスター順で紹介している。 column stackoverflow.com columnはLinuxコマンドだが検索で結構ひっかかったので紹介。 以下のように見やすいように揃えて出力してくれる。 $ head -n5 test.csv id,fi

                                CSVの処理で使えそうなコマンドラインツール(column, textql, csvkit, xsv, visidata, csvtotable, daff, tabview) - もた日記
                              • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

                                今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

                                  PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
                                • 統計・データ解析

                                  『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,本サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

                                  • 深層学習 を 用いた 異常値検知 手法まとめ 〜 (Denosing) AutoEncoder, LSTM, TDA(Topological Data Analysis) + CNN - Qiita

                                    オーソドックス な アプローチ(一般的手法) まず は、以下 が よくまとまっている。 株式会社クロスコンパス・インテリジェンス(2016.10.5)「NVIDIA GPU TECHNOLOGY CONFERENCE JAPAN 2016 Industry Deep Learning」 異常値予測 を 行う アプローチ としては、以下 が 一般的な考え方 の ようだ。 (データ量の多い)正常時のデータ挙動の特徴パターンを学ばせて、 新規データが上記の特徴パターンから乖離している場合を、異常とみなす 上記のアプローチをとる理由 は、「異常発生時のデータ」の取得可能件数 は、「正常時のデータ」 に 比べて、取得できるデータの件数 が 圧倒的に少ない から である。 上記のスライド で 挙げられている AutoEncoderモデル や LSTMモデル を 採用し、 AutoEncoderモデル

                                      深層学習 を 用いた 異常値検知 手法まとめ 〜 (Denosing) AutoEncoder, LSTM, TDA(Topological Data Analysis) + CNN - Qiita
                                    • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

                                      データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに本当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

                                        Pandasを使ったデータ操作の基本 - ぴよぴよ.py
                                      • (あなたの周りでも見かけるかもしれない)インスタンス変数の間違った使い方 - Qiita

                                        (2021-8-28追記) この記事の改訂版を書いてみました。改訂版の方が易しい内容になっているので、プログラミング初心者の方はこちらを参考にしてみてください。 はじめに:「引数があるよりは、ない方が良い」? 先日、同僚の西見さん(@mah_lab)がこんな技術ブログを書いていました。 インスタンスメソッドとクラスメソッドはどのようにして使い分けるべきか?(Rubyの場合) 同じ内容を僕だったらどういうふうに書くかな~?と思って、ちょっと書き始めてみたんですが、わかりやすく実践的な説明をするのは意外と難しく、内容も西見さんのブログとほぼ同じになりそうだったので、途中で断念しました。 というわけで、インスタンスメソッドとクラスメソッドの使い分けが未だにあやふやだという方は、ぜひ西見さんのブログを読んでみてください! ・・・なんですが、1点だけ気になる点がありました。 それはインスタンスメソッ

                                          (あなたの周りでも見かけるかもしれない)インスタンス変数の間違った使い方 - Qiita
                                        • 「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ

                                          プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana

                                            「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ
                                          • だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita

                                            データサイエンス100本ノック(構造化データ加工編)のPythonの問題を解いていきます。この問題群は、模範解答ではpandasを使ってデータ加工を行っていますが、私達は勉強がてらにNumPyの構造化配列を用いて処理していきます。 次回記事(#2) はじめに Pythonでデータサイエンス的なことをする人の多くはpandas大好き人間かもしれませんが、実はpandasを使わなくても、NumPyで同じことができます。そしてNumPyの方がたいてい高速です。 pandas大好き人間だった僕もNumPyの操作には依然として慣れていないので、今回この『データサイエンス100本ノック』をNumPyで操作することでpandasからの卒業を試みて行きたいと思います。 今回は8問目までをやっていきます。 今回使うのはreceipt.csvだけみたいです。初期データは以下のようにして読み込みました(データ型

                                              だから僕はpandasを辞めた【データサイエンス100本ノック(構造化データ加工編)篇 #1】 - Qiita
                                            • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

                                              はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

                                                2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
                                              • 猛暑日の増加

                                                [2018-07-20] as.POSIXct() を as.Date() に変えました。 東京管区気象台の東京における雷日数や真夏日等の日数の変化というページを見ると,猛暑日(日最高気温35℃以上)の日数が1876年以来著しく増加していることがわかる。ところが,平均気温を見ると,地球温暖化・都市化の影響で徐々に増加しているが,激しく変わっているようには見えない。平均ではなくて猛暑日の日数を見るべきであるという議論もある。しかし,「猛暑日」(日最高気温35℃以上)や「真夏日」(日最高気温30℃以上)のような分布の裾の日数は,何℃で切るかによって印象が大きく異なる。気温変化を誇張することにならないか。 「東京」の観測地点は2014年12月2日に約900m離れた地点に移転している。詳しくは「東京」の観測地点の移転について(PDF,2014年11月14日,気象庁観測部)を参照されたい。 東京の日

                                                • A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ

                                                  こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows

                                                    A/B テストで施策の効果を検証!エンジニアのための R 入門 - クックパッド開発者ブログ
                                                  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

                                                    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

                                                      pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
                                                    • お前らのpandasの使い方は間違っている - Qiita

                                                      この記事は株式会社Nuco Advent Calendar 2022の9日目の記事です。 はじめに いきなりお馴染みの「キャッチーでウィットでセンセーショナルな」タイトルで失礼します。 私自身、業務の中でpandasに大変お世話になっており、自戒も込めてpandasの「アンチパターン」をまとめてみました。 この記事を読んで、より快適なpandasライフを送っていただけると嬉しいです。 対象読者 Pythonを使ったデータ分析や機械学習に携わる方 この記事はpandasの基本的な使い方を解説するものではないので注意してください。 表形式ファイルを加工する必要がある方 pandasの強みはリレーショナルなデータ全般です。必ずしもデータ分析や機械学習だけが守備範囲ではありません。 pandasとは pandasの公式ドキュメントの概要には、以下のように記載してあります。 pandas is a

                                                        お前らのpandasの使い方は間違っている - Qiita
                                                      • はてなブックマーク記事のレコメンドシステムを作成 PythonによるはてなAPIの活用とRによるモデルベースレコメンド - データ分析がしたい

                                                        私は情報収集にはてなブックマークを多用しており、暇な時は結構な割合ではてなブックマークで記事を探してます。しかし、はてなブックマークは最新の記事を探すのは便利ですが、過去の記事を探すにはいまいち使えません。個人的には多少過去の記事でも自分が興味を持っている分野に関しては、レコメンドして欲しいと感じてます。 ありがたいことにはてなはAPIを公開しており、はてなブックマークの情報を比較的簡単に取得できます。そこでこのAPIを利用して自分に合った記事を見つけるようなレコメンド機能をRとPythonで作成してみたいと思います。 利用するデータは、はてなAPIを使って収集します。具体的には、はてなブックマークフィードを利用して自分のブックマークしているURLを取得し、そのURLをブックマークしているユーザをエントリー情報取得APIを用いて抽出し、そのユーザのブックマークしているURLを収集します。こ

                                                          はてなブックマーク記事のレコメンドシステムを作成 PythonによるはてなAPIの活用とRによるモデルベースレコメンド - データ分析がしたい
                                                        • GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみた - Qiita

                                                          GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみたPythonAWSAzureOpenAIGoogleCloud はじめに GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultra(Gemini Advanced)に同じ質問をして、回答結果を比較してみました。 Gemini Ultra以外のモデルはPythonコード上から実行し、Gemini UltraはGemini Advancedのチャット上で実行しています。 各モデルの詳細は以下のとおりです。 G

                                                            GPT-3.5-TurboとGPT-4-Turbo、Claude2、Claude3(Haiku)、Claude3(Sonnet)、Claude3(Opus)、Gemini Pro、Gemini Ultraに同じ質問をして、回答結果を比較してみた - Qiita
                                                          • Pythonによる財務分析① バフェットコードをつかって完全レクチャー! (全8回) | DeFi Labo

                                                            Python初心者企業の財務分析をしたいけど、なにをしたらいいのかわからないよ。。。 この記事は10分程で読むことができます! この記事では、Python初心者でもできるように、財務諸表分析をレクチャーしていきます! 本記事は、全8回に渡って掲載される「pythonによる財務分析‐バフェットコードを用いて完全レクチャー!」シリーズの第1回になります! このシリーズを読むとわかることPython初心者でも、数百数千の企業の財務データを分析出来るようになる! 最終的に重回帰分析といった機械学習的手法もマスターできる! 重回帰分析をマスターすれば、株式投資のリターン予測を行う事が出来るようになり、プログラミングだけでなく投資のスキルも磨けます! また、ファイナンス系以外の幅広い分野の研究機関でも、この分析手法を利用した論文も多々ある為、教養としても覚えて損はないです! 是非、全8回を読みPyth

                                                              Pythonによる財務分析① バフェットコードをつかって完全レクチャー! (全8回) | DeFi Labo
                                                            • 非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。

                                                              こんにちは。海原です。 ここ最近、統計学が流行していますね。「統計学が最強の学問である」がきっかけになっているのでしょうか。数年前に比べてマーケティングが重要視される今日、統計の需要が増えたのかもしれません。私はまだこの本を読んでいませんが、読もうと思った矢先にたまたま統計ツールRに出会いまして、調べながら少しいじってみました。Rを使った感触から申し上げますと、SQLを叩いて好きなデータをピックアップするよりもずっと簡単で小気味良いのです。 他の統計ツールには色々な種類があるようですが、よく知られるものとしてIBMのSPSS (IBM)(有償)があります。 その点、RはMac/Win両方に対応しており無償です。またSPSSに劣らない機能を備えており、統計学者の間でデファクトスタンダードとなっているようです。 Rに関して検索すれば丁寧な解説サイトがたくさんありますので、インストールから何の心

                                                                非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。
                                                              • 【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ

                                                                こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非常に相性が良く、研究でも役立つと思います。 そこで今回のブログではデータ分析に役立つtipsや学んだことをまとめます。 Jupyter Pandas matplotlab データ分析の基本的な流れ 参考資料 Jupyter jupyter.org ブラウザ上で利用できる開発環境です。 対話型で、作成したスクリプトと出力結果の対応関係が非常に見やすいです。 スクリプトでprint文をかかなくても最終行に変数おけば表示してくれます。 またgithub上にJupyterで作成できるipynbファイルを置くと他の

                                                                  【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門 - Gunosyデータ分析ブログ
                                                                • 巨大地震のきっかけは月なのか?->月っぽい - Qiita

                                                                  0. Abstract 巨大地震(M>8のもの)は多くの場合、月による潮汐応力による地球の変形が、発生のトリガとなっているらしい 過去に発生した地震を、統計的に扱って潮汐との関連を議論した論文もいくつかあった しかし、当然といえば当然なのだが、Tidal Phase Angleについて議論していても、Lunar AgeやLunar Phaseを明確に示したものは見つからなかった Tidal Phase Angleは、Lunar Ageとほぼ同じような振るまいとなるので、当然といえば当然か 一般人が自分でTidal Phase Angleを計算できるとは到底思えない しかし、月と太陽の位置なら自分で見ればわかる なので、Lunar AgeとEarthquakeの発生状況を可視化した 1. Introduction この記事は、過去の地震が統計的にどのような 月の位置と位相の時に発生したのか

                                                                    巨大地震のきっかけは月なのか?->月っぽい - Qiita
                                                                  • Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション

                                                                    Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション Bokehではじめるデータビジュアライゼーション 2019年1月22日、freee株式会社にて、Data Driven Developer Meetupが主催するイベント「Data Driven Developer Meetup #4」が開催されました。サービスをより良いものにするために日々データと向き合っているデータサイエンティストやエンジニアなど、様々な職種で活躍する人々が集い、知見を共有する本イベント。今回は日本経済新聞社とエムスリー株式会社の2社がメインセッションに登壇し、自社の取り組みについて語りました。プレゼンテーション「Bokehではじめるデータビジュアライゼーション」に登場したのは、YukiyoshiSato氏。デモを交えながら、Pythonのインタラクティブビジュアライゼーションライブラリ

                                                                      Pythonの可視化ライブラリ「Bokeh」ではじめるデータビジュアライゼーション
                                                                    • ExcelにPythonが搭載?その後 - xlwings を使おう - Qiita

                                                                      マイクロソフトが Excel に Python を搭載することを検討しているというニュースが流れたのは1年前のことで、結構話題になりました。昨年の Python Advent Calendar 2017 では、ExcelにPythonが搭載されることを期待して「ExcelにPythonが搭載?」という記事を書きましたが、今回は、その続編を書きます。 そのニュースというのは、マイクロソフトが Excel に Python を搭載するかどうかを検討するためアンケートを実施したということなのですが、詳しく知りたい方は、Publickeyの「ExcelにPython搭載、マイクロソフトが検討。アンケートを実施中」という記事がわかりやすいので、そちらをみてください。 その後どうなったかというと、マイクロソフトが運営しているコミュニティサイト「Excel’s Suggestion Box」に投稿されて

                                                                        ExcelにPythonが搭載?その後 - xlwings を使おう - Qiita
                                                                      • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

                                                                        (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPythonは本業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

                                                                          「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
                                                                        • 新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita

                                                                          新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノックPython機械学習pandasデータ分析ibis-framework Information 2024/1/14: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用意しました。Kaggle でもぜひ Ibis をご活用下さい。 🦩 [Ibis] Kaggle-Titanic-Tutorial Ibis 100 本ノック補足記事 Ibis 100 本ノックについて、よりスマートな書き方等について @hkzm さんが補足記事を書いてくれました(この記事を参考にコンテンツのほうもブラッシュアップしたいと思います)。 Ibis 100 本ノックの記事を受けて はじめに どうもこんにちは、kunishou です。

                                                                            新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック - Qiita
                                                                          • やってみたら簡単!ディープラーニング・オセロを作って自分を負かすまで強くした話(その1) - Qiita

                                                                            オセロのAIアルゴリズムをディープラーニングで作成し、私が勝てないぐらいまでには強くなった、という話です。 また私の場合は2ヶ月ぐらいかかってしまいましたが、実装自体はそんなに難しくなかったので、実装方法についても説明したいと思います。 この記事でわかることは、ディープラーニングでオセロのAIアルゴリズムを作る方法です。基本的な考え方は他のボードゲームも同じなので、流用できると思います。 対象読者は、TensorFlowなどディープラーニングのライブラリを使い始めて、MNISTの数字分類など基本的な処理はできたけれど、それ以外の問題だとやり方がわからない、というような方です。 きっかけ 私の所属するエンジニアと人生コミュニティで、リバーシチャレンジなるものが開催されたことがきっかけです。このコンテストは「リバーシならどこにこだわっても良い」というルールでした。 私は、ちょうど少しまえに「将

                                                                              やってみたら簡単!ディープラーニング・オセロを作って自分を負かすまで強くした話(その1) - Qiita
                                                                            • Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常

                                                                              はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出

                                                                                Kaggleで戦いたい人のためのpandas実戦入門 - ML_BearのKaggleな日常
                                                                              • 自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男

                                                                                こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar chart N-gram tree Map Histogram of the word count wordcloud co-occurrence networks sunburst chart まとめ nlplotとは? 自然言語の基本的な可視化を手軽にできるようにしたパッケージです。 現在は日本語と英語で動作確認済みです。 基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。 github.com (スター★お待ちしております🙇‍♂️)

                                                                                  自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました - ギークなエンジニアを目指す男
                                                                                • 入門pandas - 明日からはじめるデータ分析のきほん - Lean Baseball

                                                                                  こういうことやぞ サムネイルで描いた事がこのエントリーの全てです. Pythonでは、「pandas」というライブラリを使ってデータ分析や解析をすることが非常に多いです. でも、「利用方法(またはユースケース)」に合わせた入門ってあんまりない気がします. ということで、「PyCon mini Sapporo 2019」でそんな話をしてきました. sapporo.pycon.jp 訳あって資料およびJupyter notebookは非公開*1ですが、こちらにその基本とかをまとめます. TL;DR - このエントリーは 実務や趣味のデータ分析でpandasを使う例を紹介します. 初歩的な使い方から中級者になるまでのヒントになると思います. なお,統計テクニック・機械学習には触れません・やりません. なお、対象読者は「そこそこPythonとJupyter notebookが使えてこれからデータ分

                                                                                    入門pandas - 明日からはじめるデータ分析のきほん - Lean Baseball