[B! プログラミング][解析] walkaloneのブックマーク

walkalone id:walkalone

プログラミングと解析に関するwalkaloneのブックマーク (27)

https://x.com/DS_school_1/status/1797466407682334883
- 1 user
- x.com
- 世の中
walkalone 2024/06/15
“データサイエンス重要ライブラリまとめ”

Twitter

プログラミング

解析
リンク
https://x.com/DSnaitei/status/1801162632214565109
- 1 user
- x.com
- 学び
walkalone 2024/06/14
“機械学習を勉強する前に必要な数学知識”

Twitter

育成

解析

プログラミング
リンク
【機械学習】AUCとGini係数の関係を理解する【評価指標】 - Qiita
はじめに二値分類の評価指標について「AUCとGini係数ってどんな関係だっけ？」と毎回忘れては調べているので、いい加減覚える意味で体系的にまとめてみる。この記事では AUCとは何か？ Gini係数とは何か両者はどんな関係があるか？を理解することを目的とする。最初に結論 AUCとGini係数の間にはの関係がある。 AUCは0.5から1の範囲を取るため、Gini係数は0から1までの範囲を取る。どちらも値が大きいほど分類性能が良いことを表す。最終的にこの式を理解することを目的としよう。 AUCを理解しよう AUC （Area Under the Curve）は二値分類における有名な評価指標の一つであり、文字通り、「ROC曲線下の面積」を表す。 ROC曲線とは？ ROC (Receiver Operating Charastaristic Curve)は受信者操作特性と呼ばれる
walkalone 2024/02/26
プログラミング

解析
リンク
時系列データの「定常性」と「3つの非定常性」
時系列データ関連のお勉強をしたときに、必ず登場する厄介な概念の1つが「定常性（Stationarity）」です。定常性（Stationarity）は、時系列データの統計的な特性（平均、分散、自己相関など）が時間によらず一定であるという性質を指します。これは、時系列分析において重要な前提条件となる場合が多いです。具体的には、定常性には以下のような特性があります。平均が時間によらず一定: これはデータの「中心」が時間とともに変化しないことを意味します。つまり、ある時点での平均値が別の時点での平均値と同じであることを示します。分散が時間によらず一定: これはデータの「ばらつき」が時間とともに変化しないことを意味します。つまり、ある時点での分散が別の時点での分散と同じであることを示します。自己共分散（または自己相関）が時間によらず一定: これは2つの時点間の関連性がラグにのみ依存し、時間
walkalone 2024/02/06
解析

プログラミング

メソッド
リンク
Kaggle Grandmaster 分析レポート 2024年 -update版- | ResearchPort [リサーチポート]
本記事内容および公開データに対して多くのご意見をいただきまして誠にありがとうございました。プロフィール更新のご連絡をいただきましたため、一部情報を更新しております。その結果、図4の企業ランキングにてLINEヤフー社が4位群に変更となりましたことご報告いたします。ご意見・ご指摘いただきました方々、この場を借りて御礼申し上げます。 2024.01.26更新本記事3行要約： ● Competition Grandmasterの総数で、日本が世界TOPに躍進！！ ● 7ヶ月間で新たに15名の日本人Competition Grandmasterが誕生！！ ● 企業別では、新たに4名のGMが生まれたPreferred Networks社が最多在籍！！＊更新情報＊「Kaggle Master 分析レポート 2024版」を公開いたしました。 Grandmaster 分析レポートと合わせてご覧くだ
walkalone 2024/01/17
AI

調査

プログラミング

解析
リンク
https://twitter.com/developer_quant/status/1739169912193761648
walkalone 2023/12/26
“ユークリッド距離・マンハッタン距離・キャンベラ距離・チェビシェフ距離・ミンコフスキー距離”

解析

プログラミング
リンク
データ分析コンペティション | Nishika
締切： 2024/05/31 (残り67日) 参加： 18名投稿： 13件賞金/賞品：各種商品メダル・スコア付与：なし
walkalone 2023/12/25
プログラミング

解析

サイト
リンク
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ（2023年12月版）｜カレーちゃん
機械学習初心者がKaggleの「入門」を高速で終えるための、おすすめ資料などまとめ（2023年12月版）こんにちわ、カレーちゃんです。Kaggle GrandMasterです。 Kaggleはデータサイエンスに入門するのにとても適しています。ですが、英語の問題などがあり、入門するのが難しい。そこで、Kaggleの「入門」をこうすれば高速に完了できるというnoteを書きます。同じタイトルの記事を、2020年8月にも書いたのですが、それから2年以上がたちました。それから、おすすめできる資料が増え、また、私が思う入門のコースもやや変わりましたので、更新をしたいと思います。 1.Kaggleに入門（はじめに取り組むと良い資料）Kaggleには、「タイタニックコンペ」という、練習用のコンペがあります。これは、事故が起こったタイタニックの乗客のデータから、乗客の生死を予測するという、やりたいこと
walkalone 2023/12/25
メソッド

解析

プログラミング
リンク
Kaggleで銅・銀・金メダルを取るプロセス｜カレーちゃん
Kaggleで銅メダル、銀メダル、金メダルを取るプロセスの違いや、具体的に何をすべきかについて質問がありました。 Twitterで回答を募集したところ、次の回答をもらいました。過去に似たコンペ2,3コンペ漁って1~10位までの解法に目を通しつつ、現コンペのディスカッションを全部追って効くものを試すと銀メダルは取れるという肌感覚 https://t.co/si4GwbM4wD — 杏仁まぜそば (@an_nindouph) November 17, 2023 自分もこれと同じ感覚です。以下、少し説明します。銀メダルを取るために必要なもの銀メダルを獲得するために必要だと思ったのが、次の3つです。最低限のデータ分析コンペの実力データ分析について、最低限のみんなが知っていることを知っておくことが必要と言えます。「Kaggleで勝つデータ分析の技術」の知識があれば、十分に戦えると思います。
walkalone 2023/11/26
メソッド

プログラミング

解析
リンク
[Kaggle]0から本当に機械学習を理解するために学ぶべきこと～一流のデータサイエンティストを例に～ - Qiita
「機械学習が出来るようになりたい」そう思いつつも、中々身についた感じがしない。そんな方々に向けて、Kaggleで公開されているデータ分析の手順を追いかけながら、そこで必要とされている知識を解説したいと思います。全体像を把握することで、より理解が進むはずです。 1. データを分析するために必要な統計的知識機械学習の目的は未知の事柄を推定することです。そのために既にあるデータから何らかの法則性を見つけ出す為に様々な手法が考えられてきました。統計学はご存知でしょうか？　機械学習はデータを扱うという点で統計学と深い関係があります。平均値や標準偏差などは聞いたことがあると思います。統計学はそれらの情報をこねくり回すことによって、限られたデータから本当の全体像を推定します。例えば、選挙の結果を開示前に知りたいときに、投票者全員に聞ければ良いですが、そうもいきません。そこで、統計学は様々な方法を使
walkalone 2023/09/16
プログラミング

解析

メソッド

読書
リンク
aokikenichi/FT図解の言語.ipynb at main · aokikenichi/aokikenichi
walkalone 2023/09/04
解析

プログラミング

メソッド

デザイン
リンク
歪度と尖度について解説！定義と目安について分かりやすく！｜スタビジ
当サイト【スタビジ】の本記事では、尖度と歪度について解説してきます。尖度とは「分布が正規分布からどれだけ尖っているか表す指標」、歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」と定義されています。歪度と尖度を求めることで、データの分布がどのような形状になっているかある程度分かるようになります。今回は歪度と尖度の定義と目安について解説していきます。こんにちは！データサイエンティストのウマたん(@statistics1012)です！今回は歪度と尖度について解説していきます！歪度は「分布が正規分布からどれだけ歪んでいるか表す指標」、尖度は「分布が正規分布からどれだけ尖っているか表す指標」と定義されています。歪度と尖度を求めることで，データの分布が正規分布に近いものであるか確認することができ，分布の形もある程度推測することが可能になります。
walkalone 2023/09/02
解析

数学

プログラミング
リンク
PyGWalker と Streamlit でTableau風ダッシュボードを12行コードで作成する
データを入手したとき、最初に実施するタスクの1つが、探索的データ分析 (EDA) です。探索的データ分析 (EDA) は、データをより深く理解するプロセスにおける重要なタスクです。データの大まかな概要を把握するためのツールがいくつかあります。例えば、Tableauです。Tableauは無料ではありません。それなりにコストがかかります。 PandasやPolarsのデータフレーム（DataFrame）を、Tableau風のユーザーインターフェイスで操作できるようにするPythonライブラリーがあります。 PyGWalkerです。 PyGWalkerは、Tableauの代替品とも言われているオープンソースであるGraphic Walkerを利用したものです。以前、Jupyter上でPyGWalkerを使う方法について簡単に説明しました。 Tableau風にデータ操作できるPythonライ
walkalone 2023/09/02
プログラミング

ツール

解析
リンク
Jupyter Notebook上でSQLをらくらく実行するJupySQL
Jupyter NotebookやJupyter Labといった、Notebookでデータ分析業務をする人が、ここ数年で増えてきました。 Notebook上でデータ分析をするとき、外部のCSVファイルやDBのデータテーブルなどからデータセットを取得する必要があります。よくあるのが、Pandasを利用し取得したデータセットをデータフレームに格納するケースです。データ規模が大きいほど、ある問題が起こります。例えば、メモリの消費の問題です。データフレームに格納するということは、PCなどのメモリをそれだけ消費します。多くの場合、読み込んだ直後のデータフレームは、そのままデータ分析に使えることは少なく、何かしらの加工なり処理がなされ整えられます。ある程度整えられたデータセットの状態で、データフレームとして格納した方が、メモリの消費量は少なくてすみます。他には、外部DBのパフォーマンス低
walkalone 2023/08/27
プログラミング

メソッド

ツール

解析
リンク
ExcelでPythonを使えるようにするとMicrosoftが発表
Microsoftが表計算ソフト「Excel」上でPythonを動作させることを可能にすると発表しました。Microsoft 365 Insider Programを通して使用できるベータ版のExcelで既にPythonが利用可能になっています。 Announcing Python in Excel https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439 新たに導入される「PY」関数を使用すると、セルに直接Pythonのスクリプトを書き込むことができ、書き込まれたスクリプトがMicrosoft Cloud上で実行されてシートに結果が表示されます。サーバーで実行されるPythonにはデータ分析用
walkalone 2023/08/23
プロダクト

ニュース

プログラミング

解析
リンク
ChatGPT Code Interpreterでjapanize-matplotlibを使って日本語画像表示をする方法｜カレーちゃん
Code Interpreterで、matplotlibを使うと日本語の表示ができないため、japanize-matplotlibを用いて日本語化する方法です。 Code Interpreterでjapanize-matplotlibを使う方法japanize-matplotlibの最新版をgithubからダウンロードします。次の画像のDownload ZIPの箇所をクリックすることでダウンロードできます。 Download ZIPの場所Conde Interpreterに次の指示をします。これはjapanize-matplotlibライブラリのzipファイルです。これを、/mnt/data/ ディレクトリに解凍してください。その後、次のコードを実行してください。 ``` import sys sys.path.append('/mnt/data/japanize-matplotli
walkalone 2023/07/27
プログラミング

メソッド

解析
リンク
データ分析の効率が10倍上がるデータサイエンティストのためのChatGPTの活用術 - Qiita
ChatGPTを使ってデータサイエンティストの生産性を爆上げする活用術をまとめました！また、データサイエンティストがChatGPTを活用するための記事をまとめているので、こちらもぜひ参考にしてみてください。データ前処理「ChatGPTを使用すると、「データを分析可能な形に前処理して」といった大雑把なリクエストに対しても、すんなりと対応し、データ前処理を行ってくれます。」今のところ、大量のデータを前処理する際にChatGPTを利用する場合は、ChatGPTに実際の前処理を行わせるのではなく、前処理用のサンプルコードを教えてもらう方が良いでしょう。ただし、近い将来にはCSVやExcelを直接アップロード＆ダウンロード可能な「Code Interpreter」というプラグインが追加される予定とのことで、実務利用が大いに現実味を帯びると考えられます。詳細は以下のページで紹介しています！
walkalone 2023/06/03
AI

解析

プログラミング

メソッド
リンク
Spotify Data Visualization
walkalone 2023/05/01
調査

プログラミング

音楽

解析
リンク
ミリ秒単位のエポックタイムスタンプをエクセルで読めるようにする
▼ミリ秒単位のエポックタイムスタンプ例）1589365629000　(13ケタ) ・セル上での計算式(JSTにする場合) =(タイムスタンプ + 32400000) / 86400000 + 25569 または =(タイムスタンプ + 32400000) / 86400000 + DATE(1970, 1, 1) ・セル上での計算式(UTCにする場合) =(タイムスタンプ) / 86400000 + 25569 ・セルの書式設定ユーザー定義で「yyyy/m/d h:mm:ss.0」にする ↓ 「2020/5/13 19:27:09.0」と表示できる ▼秒単位の場合例）1589365629　(10ケタ) ・セル上での計算式(JSTにする場合) =(タイムスタンプ + 32400) / 86400 + 25569 または =(タイムスタンプ + 32400) / 86400 + DATE
walkalone 2023/02/23
メソッド

プログラミング

解析
リンク
2023年版：実務データ分析を手掛けるデータサイエンティスト向け推薦書籍リスト（初級6冊＋中級8冊＋テーマ別15冊） - 渋谷駅前で働くデータサイエンティストのブログ
(Image by wal_172619 from Pixabay) 去年で恒例の推薦書籍リストの更新は一旦終了したつもりだったんですが、記事を公開して以降に「これは新たにリスト入りさせないわけにはいかない！」という書籍が幾つも現れる事態になりましたので、前言撤回して今年も推薦書籍リストを公開しようと思います。初級向け6冊実務総論データサイエンス総論 R・Pythonによるデータ分析プログラミング統計学機械学習中級向け8冊統計学機械学習テーマ別15冊回帰モデル PRML 機械学習の実践 Deep Learning / NN 統計的因果推論ベイズ統計学時系列分析グラフ・ネットワーク分析データ基盤コメントや補足説明など完全なる余談初級向け6冊今回は新たに加わったテキストがあります。実務総論 AI・データ分析プロジェクトのすべて[ビジネス力×技術力＝価値創出
walkalone 2023/02/08
AI

プログラミング

読書

解析
リンク
1 2 次のページ