企業の経営状況は財務に関する情報から分析できる。Pythonを使ってEDINETから有価証券報告書のデータを取得し、企業の収益性を可視化してみよう。 「財務分析」とは、「企業の財務に関する情報から経営状況を分析すること」です。企業の財務に関する情報は、「貸借対照表」「損益計算書」などから構成される「財務諸表」と呼ばれる資料から確認できます。 では、上場企業の財務分析を行う場合、それらの資料はどうやって入手したらよいでしょうか。そんなときに利用できるのが「有価証券報告書」です。 有価証券報告書は、企業の株式などを購入する投資家に対し、投資判断に有用な情報を示すために作られる資料です。財務諸表も有価証券報告書の中に含まれています。 この有価証券報告書は、金融庁が運用している「EDINET」というシステムから入手できます。EDINETは、有価証券報告書、有価証券届出書、大量保有報告書等の開示書類
概要 ・kaggleにあるABテストの結果のデータセットを用いて、広告の効果を検証。検証方法は4つ「平均の差、重回帰分析、傾向スコアマッチング、IPW」。 ・一部(共変量を調整した重回帰分析)の検証方法では広告によりコンバージョン率が下がるというマイナスの効果が確認されたが、これはPost Treatment Bais(処置後変数バイアス)によるものだと考えられる。 ・その他の分析手法では概ね広告にはプラスの効果があることが示された。 ・今回の分析での壁は、本当の因果効果を推定するための必要な共変量がおそらくないこととドメイン知識不足により、どのような変数をコントロールすれば良いのかわからないことだった。 利用したデータセットとその説明 kaggleにあるデータセットで、広告マーケティングをする際にABテストを実施した結果をデータにしたものを利用。 データセットのサイズ:588101 ro
言語&開発基礎編 PythonやSQLなどの言語と開発環境に関連することをまとめました。 機械学習に関する教材はこの次のセクションにまとめてあります。 学習環境 インストール及び使い方チュートリアルのサイトと、ある程度使い慣れた後に役立つtips集を各エディタでまとめました。 Google Colaboratory Python初学者にとって最もわかりやすいPython実行環境です。プログラミングは初めて!という方はまずこのGoogle Colaboratory(通称: Colab)から始めてみて、使い方がある程度わかったら、そのまま次のセクションのPython編に移りましょう。 Pythonプログラミング入門 難易度: ★☆☆ 東京大学の公開しているPython講座ですが、冒頭でColabの使い方を解説しています。使ったことのない方はこちらから! Google Colabの知っておくべき
数理最適化案件とAI/機械学習案件とのアナロジー 「やってみなければわからない」中で僕たちDSはどうするか本記事では表題に関して、脳筋系ゆるふわVTuberこと入社2年目DSの岡部がお送りいたします。(DS=データサイエンティスト) 発... ◆【理論・実践】(2021年時点で)オススメの参考書 最大のアップデートはこちらの2冊です。参考書は時代の流れに合わせていいものが出てくるものですね。もちろん過去の参考書にもいいものはたくさんありますが、日進月歩の分野である以上、新しいものに軍配が上がりやすい構図はあると思います。 しっかり学ぶ数理最適化 モデルからアルゴリズムまで Pythonではじめる数理最適化: ケーススタディでモデリングのスキルを身につけよう 以下それぞれの所感です 【理論】「最適化分野全般を知るための『最適解』」とも言われている教科書 僕が最適化にハマっていた当時は様々な本
PolarsというPandasを100倍くらい高性能にしたライブラリがとても良いので布教します1。PolarsはRustベースのDataFrameライブラリですが、本記事ではPythonでのそれについて語ります。 ちなみにpolarsは白熊の意です。そりゃあまあ、白熊と大熊猫比べたら白熊のほうが速いし強いよねってことです2。 何がいいの? 推しポイントは3つあります 高速! お手軽! 書きやすい! 1. 高速 画像はTPCHのBenchmark(紫がPolars)3。 日本語でも色々記事があるので割愛しますが、RustやApach Arrowなどにお世話になっており、非常に速いです。MemoryErrorに悩まされる問題も解決されます。開発者のRitchieがしゃれおつなツイートをしてるので、そちらも参考にどうぞ ↓ 4。 抄訳: (ひとつ目)Pandasは黄色くした部分でDataFram
分類モデルの評価指標として、適合率や再現率などがあります。Web上で多くの解説記事がありますが、scikit-learnのclassification_reportに表示される各指標を読み解くためには、プラスアルファの理解が必要です。この記事では、実際にscikit-learnで出力される内容を例にして、適合率と再現率の意味を解説します。 Webとかでよくある説明 機械学習で分類モデルを評価するとき、正解率(Accuracy)、適合率(Precision)、再現率(Recall)、F1-scoreなどの評価指標をよく利用します。これらの解説として、以下のような2値分類の説明が多くあります。 正解率(Accuracy) 正解率(Accuracy) は、全体の中で正解した割合 正解率 = (20 + 1) ÷ (20 + 2 + 3 + 1) ≒ 0.81 適合率(Precision) 適合率
AIが世の中にだいぶ普及してきていることもあり、 「Pythonで競馬AIを作ったら儲かるのか?」 「ディープラーニングで競馬予想したら回収率100%超えた」 などの話題が注目を集めているのを度々目にします。 僕も 「機械学習の技術を使って実際に何か作りたい」 という動機から競馬予想AIの開発を始め、 「その様子を動画にしたら面白そう」 ということで、次のようなYouTubeチャンネルをやってきました。 登録者も増え、エラーが出た時のフォローや改善アイデアを議論し合うコミュニティを作るにまで至ったのですが、実際の運用を考えたり、処理を追加して精度を改善しようと思うと、かなり煩雑で分かりにくいコードになっていってしまうことに悩んでいました。 そこで、一回きりのアドホック1的な「予測してみた」で終わらせず、継続的に開発・運用していけるような機械学習モデルを作るには、GCPなどのクラウドツールに
講義情報¶ 講義室の備え付けのPCも利用できますが、自前のコンピュータを持参して講義を受けることをおすすめします。プログラミング環境は第1回目の講義で説明しますが、 Google Colab を用いてプログラミングを行います。各自、千葉大学から発行してもらったGoogleアカウントを確認しておいてください。千葉大が発行するG Suiteアカウントでのみ受講できます。個人で保有しているgoogle アカウントでは受講できないので注意してください。千葉大が発行するG Suiteアカウントをもっていない人は、Moodleにログインする等して確かめてください。 この講義を履修するためには、Google classroomに参加する必要があります。クラスコード「6uyrc5u」です。 https://classroom.google.com/c/NjY2NjQ0ODExNjY5 講義は以下の時間帯・
今年も GitHub トレンドから 2022 年の JavaScript/TypeScript を振り返ります。去年の記事はこちらです。 — GitHub のトレンドで振り返る 2021 年の JavaScript | WEB EGG 集計方法 本記事の集計期間は 2022/01/01〜2022/12/07、対象言語は JavaScript および TypeScript です。 なお GitHub がそのリポジトリをなんの言語と見なしてトレンドに掲載したかをもとに集計対象を決定していることにご留意ください。 別言語で書かれた Rust 製の JS 向けのツールや CSS フレームワークなどは基本的に対象外となります。 集計に利用したデータですが、GitHub は過去のトレンドを閲覧する方法を提供していないため、独自の仕組みで GitHub トレンドのアーカイブを生成しそのデータを利用しまし
この記事は R Advent Calendar 202211日目の記事です。 10日目の記事にはしょこさんの記事ですね。 Twitterでは個人的に「動くグラフ」をたくさん作っているすごい人、という認識でいるのですが、今回は rtweet パッケージを使ってTwitterの画像を集めて、 それをアニメーションにしているようです。すごい。 まだ読んでいない?ぜひ行ってきてください。この記事はとても長いので。 お久しぶりです 結局月1投稿すらままならなかったですが、元気にやっています。 アドカレの記事でいうこともないのですが、以下のご報告をします。 結婚しました PC買いました 統計検定はダメでした CTF始めました 転職します 来年もよろしくお願いします 内容 仕事と個人的な道楽を兼ねて一時期勉強していたMarketing Mixed Modelについて、 そのコンセプトとMeta社の実装で
概要 本書籍は、Pythonによる衛星データ解析に興味がある初学者に向けた入門書となっています。学校の情報の授業等で利用する際の副教材になることを意識し、衛星データだけでなくデータサイエンスの基礎的な内容も含めました。学校で地球環境やご自身が住んでいる地域がどのように変化しているか調べたい方はもちろんのこと、衛星データを使って何かビジネスを始めたい方にも読んでいただきたいと思っています。従来のデータサイエンスの教材の場合には身近なデータを利用することが難しかった中で、衛星データであれば身近な地域のデータを利用して解析することができます。少しのプログラミング変更で解析対象地域を変えることができるようになっているので、関心のある地域の変化についてぜひ調べてみてください。 こんな方にオススメ 人工衛星が地球を観測したデータはある程度まで無料で使うことができます。そうした衛星データをPythonプ
伝説のトレーダー集団「タートルズ」について ウォール街で伝説的トレーダー集団「タートルズ」― 彼らはプロの投資家による指導により、素人がトレーダーになれるかどうか?という実験の結果生まれたトレーダー集団でした。 【タートルズ投資とは?そのルールと概要より引用】 要するにズブズブの素人を伝説のトレーダー集団に仕立てた、すごい投資戦略ということです。 (つまりこの戦略使えば誰でも大金持ちってコト....!?!?) 今回はこのすごい投資戦略が本当に通用するのか検証したいと思います。 どうやって検証するの?(バックテストとは?) 検証はバックテストを実施することで行います。 バックテストとは過去のデータを使って、その投資戦略がどの程度良いルールなのか(どのぐらい利益を出せるか)を検証することです。 この過程を行うことで、実際に売買する前にその買い方が本当に適切なのか、判断することができます。 具体
はじめに 以下の書籍を参考にしながら,統計の基礎を学び直した軌跡,確率編2です. この記事は5部構成の3つ目です.以下も参照ください. 準備〜データ編・・・投稿済み 確率編1・・・投稿済み 確率編2・・・この記事 確率編3・・・まだ 推測編・・・まだ この記事を書いた動機,注意点,使用している技術,記事の構成,準備については準備〜データ編に掲載されています. 今回もエンジニアに馴染みの無い用語が沢山出てきます.また,深堀りすればするほど,この技術が何に使えるのか?を見失ってしまい,読み進めるのを諦めてしまいがちです,,,そうならぬよう,書籍を参考にしつつも,補足を入れたり,情報の取捨て選択をしているので,書籍に沿って進めたい方は書籍を購入ください! 確率編2は,確率編1にて学習した離散型確率分布の詳細と,連続型確率分布について一通り学んでいきます. 確率編1 推測統計 確率モデル 離散型確
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く