data_scienceに関するエントリは98件あります。 機械学習sciencepython などが関連タグです。 人気エントリには 『東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital』などがあります。
  • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新) - Digital, digital and digital

    東京大学がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大のPython入門が無料公開されています。scikit-learnといった機械学習関連についても説明されています。ホントいいです Pythonプログラミング入門 東京大学 数理・情報教育研究センター: utokyo-ipp.github.io 東大のPython本も非常にオススメです Pythonによるプログラミング入門 東京大学教養学部テキスト: アルゴリズムと情報科学の基礎を学ぶ https://amzn.to/2oSw4ws Pythonプログラミング入門 - 東京大学 数理・情報教育研究センター Google Colabで学習出来るようになっています。練習問題も豊富です https://colab.research.google.com/github/utokyo-ip

    • 統計的因果推論と因果探索について|M3 Data Science Blog

      こんにちは。エムスリーデータ分析グループの中島です。 本記事ではマーケティングやデータサイエンスの文脈で重要度が高まっている統計的因果推論への足掛かりをデータ分析グループの業務と結び付けながらご紹介したいと思います。 1. はじめに「A→Bの因果関係がある」とは、Aへ介入する(Aを変化させる)ことよって、要因Bを変化させることができることを意味します。 具体例で考えると、投薬(A)の有無によって病気の治癒率(B)が変化する場合、投薬→治癒率の因果関係があるといえるわけです。 このような因果関係をデータを活用して解き明かそうとするのが統計的因果推論の目的ですが、大別するとさらに次の2つに分類されます。 (1) 因果の方向を既知のものとして因果の大きさを評価(因果推論) (2) 因果の方向の決定・探索(因果探索) これらの基本的な考え方と手法について紹介をしたいと思いますが、その前に重要な概念

      • 東大が無料公開している超良質なPython/Data Science/Cloud教材まとめ (*随時更新)

        東京大学 がちょっとびっくりするくらいの超良質な教材を無料公開していたので、まとめました Python入門講座 東大の Python 入門が無料公開されています。scikit-learnといった 機械学習 関連についても説明されています。ホントいいです Python プログラ...

        • メルカリ・ヤフー・ZOZO開発者が語る「画像検索」の最前線!  Bonfire Data & Science #1 イベントレポート

          ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 祝! データサイエンス領域で初めての Bonfire!! そんな記念すべき初回のイベントレポートを書かせていただきます、Yahoo!ショッピングでサイエンス領域を担当している東孝信です。 Bonfire Data & Scienceは、データとサイエンスに関わる人たちが情報共有できる勉強会/交流会です。 今後も定期的に開催される予定ですので、興味のある方は第2回以降もぜひチェックしてください! さて、第1回のテーマは「画像検索」です! 最近EC系のサイトで類似画像検索が出来るようになったけどどうやってるの? 画像検索のモデルってどうしてるの? 画像検索のインフラはどうしてるの? 私たちの会社でも画像検索を用いたサービスを構築できる

          • 9 Distance Measures in Data Science

            Distance Measures. Image by the author.Many algorithms, whether supervised or unsupervised, make use of distance measures. These measures, such as euclidean distance or cosine similarity, can often be found in algorithms such as k-NN, UMAP, HDBSCAN, etc.

            • GitHub - microsoft/Data-Science-For-Beginners: 10 Weeks, 20 Lessons, Data Science for All!

              • Mathematical Tools for Data Science - NYU Center for Data Science

                Description This course provides a rigorous introduction to mathematical tools for data science drawn from linear algebra, Fourier analysis, probability theory, and convex optimization. The main topics are covariance matrices, principal component analysis, linear regression, regularization, sparse regression, frequency representations, the short-time Fourier transform, wavelets, Wiener filtering,

                • 社内での円滑なデータ分析のために / for-smooth-data-science

                  2019年11月5日 Connehito Marché vol.6 〜機械学習・データ分析市〜 (https://connehito.connpass.com/event/149552/) でのLT資料です。 10分間の LT です。 データ分析プロジェクトを円滑に進めるために必要だと感じた「社内政治」について語っています。いい意味です。

                  • 時系列予測モデルの実践論2 -昔のKaggleを事例に- - NRI Data Science BLOG

                    Part2 特徴量エンジニアリング 前回の振り返り... パート1では、実践的な多変量時系列予測モデルを構築するためのアプローチを紹介し、過去のKaggleコンペティション のデータセットを用いて、ベースラインとなるSeasonal Naiveモデルを作成しました。 今回のパート2では特徴量エンジニアリングを扱います。 時系列データの特徴量エンジニアリング NRIデータサイエンスブログへようこそ!NRIのデータサイエンティスト、時系列予測プラクティスチームのSatyakiです。 パート2では、特徴量エンジニアリング、特に時系列のMLモデルのトレーニングに使用される特徴量について説明します。 ARIMAやExponential Smoothingなどの伝統的な時系列モデルと異なり、機械学習モデルはクロスセクションデータを用いて学習させるため、それぞれの学習用サンプルは独立していると考えられま

                    • Metaflow - a framework for real-life ML, AI, and data science

                      A framework for real-life ML, AI, and data science Open-source Metaflow makes it quick and easy to build and manage real-life ML, AI, and data science projects. Modeling Use any Python libraries for models and business logic. Metaflow helps manage library dependencies, locally and in the cloud. Deployment Deploy workflows to production with a single command and integrate with other systems through

                      • GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

                        • 100+ Best Free Data Science Books For Beginners And Experts

                          In the previous post we’ve covered 100+ Free Machine Learning and Artificial Intelligence Books. If you haven’t checked make sure you spend 2 minutes after checking this post. In this post, You’ll see 100+ free data science books for beginners, intermediate and experts. The eBooks are updated in 2023 and available in pdf or html format. Note: All the books listed below are open sourced and are in

                          • 10 Free Data Science courses from Harvard

                            Harvard University (Image source and credits: Pinterest)1. Principles, Statistical and Computational Tools for Reproducible ScienceStart Date — April 17th, 2020 Difficulty level — Intermediate Duration — 8 weeks long

                            • ABEJA Data Scienceチームと取り組みのご紹介 - ABEJA Tech Blog

                              はじめに ABEJAにおけるDSのお仕事 どんな仕事? どんな人達? 業務の進め方 アセスメントフェーズ PoCフェーズ インテグレーションフェーズ ABEJA DSの特徴 ①運用を意識したモデル開発 ②要件定義フェーズの早い段階からの連携 ③技術・情報共有の仕組み 日々の取り組みや制度 ①DS Review(提案内容議論・レビュー会) ②中間レビュー(実装方針議論・レビュー会) ③プロジェクト振り返り会 ④Brainstorming (学習・スキルアップ機会) ⑤DS codebook (技術蓄積&再利用性向上の仕組み) おわりに 参考:取り扱っている技術スタック はじめに こんにちは、Labsチームの藤本です。本日は他己紹介ということで、ABEJA Data Scienceチームの紹介をしていきます。今回はテックブログと言うより会社紹介になってしまいましたが、続編ではもう少し掘り下げる

                              • 時系列予測モデルの実践論3 -昔のKaggleを事例に- - NRI Data Science BLOG

                                前回の振り返り パート2では多系列・時系列予測モデルを行うための、特徴量エンジニアリングを行いました。 生成された特徴量は、外生的なものだけでなく、時系列特有の要素を表現していることが重要でした。 Iterativeモデルによる多系列・時系列予測 みなさんこんにちは、NRIのデータサイエンティスト、時系列予測プラクティスチームの鈴木です。 今回は多系列・時系列予測を行うモデル構築の第1弾として、Iterativeモデルを導入していきます。 多系列・時系列予測モデルの概観 時系列予測モデルの分類 Iterativeモデルとは 第1回でご紹介したとおり、多系列・時系列予測を行う際に「一つ一つの時系列に対してモデル適用を繰り返す (Iterative)」方法をIterativeモデルと呼びます。これは「複数の時系列全体に対して一つのモデルを適用する(Global)」とは対比的です。それぞれに優れ

                                • Flask’s Latest Rival in Data Science | by S Ahmad | Towards Data Science

                                  Streamlit Is The Game Changing Python Library That We’ve Been Waiting For Developing a user-interface is not easy. I’ve always been a mathematician and for me, coding was a functional tool to solve an equation and to create a model, rather than providing the user with an experience. I’m not artsy and nor am I actually that bothered by it. As a result of this, my projects always remained, well, pro

                                  • Using GitHub Actions for MLOps & Data Science

                                    EngineeringUsing GitHub Actions for MLOps & Data ScienceBackground Machine Learning Operations (or MLOps) enables Data Scientists to work in a more collaborative fashion, by providing testing, lineage, versioning, and historical information in an automated way.  Because the… Background Machine Learning Operations (or MLOps) enables Data Scientists to work in a more collaborative fashion, by provid

                                    • GitHub - posit-dev/positron: Positron, a next-generation data science IDE

                                      • Kaggle Data Science Bowl 2019 上位解法まとめ - ML_BearのKaggleな日常

                                        編集履歴 '20/01/28: 3rd solutionを追加 これはなに? Kaggleで10/24-1/23に開催されたData Science Bowl 2019コンペの上位解法まとめです。 1/27時点で公開されている10位以内の解法をまとめてみました。 Shake-up/downの激しいコンペでしたが、上位入賞されている方の解法には学ぶところが多く、上位に入るべくして入った方が多い印象でした。 流し読みしてまとめたので、間違っているところとかお気づきの点あればご指摘ください。 金メダル圏内のものがあと4つぐらい公開されていたので後で足そうと思います。 1st 1st place solution Stats private 0.568 / public 0.563 要約 LightGBMのシングルモデル(!) Foldごとにシードを変えた5Fold 詳細 Validation L

                                        • Netflix’s Polynote is a New Open Source Framework to Build Better Data Science Notebooks

                                          Netflix’s Polynote is a New Open Source Framework to Build Better Data Science Notebooks The new notebook environment provides substantial improvements to streamline experimentation in machine learning workflows.

                                          • GitHub - suhara/cis6930-fall2021: Course materials for Fall 2021 "CIS6930 Topics in Computing for Data Science" at New College of Florida

                                            This course covers a line of Deep Learning techniques that have been applied to a variety of computer science problems, especially in Computer Vision and Natural Language Processing. The course will start from Deep Learning fundamentals such as basic model architecture and optimization techniques before moving onto more sophisticated techniques. This course covers commonly used techniques for Comp

                                            • Deepnote: Analytics and data science notebook for teams.

                                              Introducing notebooks: The most powerful AI data workspacePowered by GPT-4 with the context from your data workspaceTurn notebooks into powerful data apps and dashboardsCombine Python, SQL, R or don’t write code at allQuery Snowflake, BigQuery, CSV, and 50 more data sources

                                              • GitHub - goplus/gop: The Go+ programming language is designed for engineering, STEM education, and data science

                                                • Introduction to Probability for Data Science

                                                  Michigan Publishing, 2021 ISBN 978-1-60785-746-4 (hardcover): Purchase from Amazon ISBN 978-1-60785-747-1 (electronic) Free download from Univ. Michigan Publishing

                                                  • Designing Data Science Tools at Spotify: Part 1

                                                    Spotify operates at a massive scale: We have millions of listeners whose activities generate huge amounts of raw data. Raw data by itself is not that helpful though; we need to be able to process, manage, and distill it into insights that can inform new features or improvements to the experience. And to do that, we need usable, well-designed tools that ensure these insights can be easily understoo

                                                    • Open-Sourcing Metaflow, a Human-Centric Framework for Data Science

                                                      by David Berg, Ravi Kiran Chirravuri, Romain Cledat, Savin Goyal, Ferras Hamad, Ville Tuulos tl;dr Metaflow is now open-source! Get started at metaflow.org. Netflix applies data science to hundreds of use cases across the company, including optimizing content delivery and video encoding. Data scientists at Netflix relish our culture that empowers them to work autonomously and use their judgment to

                                                      • GitHub - abhat222/Data-Science--Cheat-Sheet: Cheat Sheets

                                                        • From controlled to undisciplined data: estimating causal effects in the era of data science using a potential outcome framework

                                                          This paper discusses the fundamental principles of causal inference - the area of statistics that estimates the effect of specific occurrences, treatments, interventions, and exposures on a given outcome from experimental and observational data. We explain the key assumptions required to identify causal effects, and highlight the challenges associated with the use of observational data. We emphasi

                                                          • Economics Meets Data Science: The Structural Estimation Series, Part I - Sansan Tech Blog

                                                            Hey there! I'm Juan (ファン), a researcher at DSOC's Social Science Team. Since this is probably the first time you read me, I thought of briefly introducing myself. I was born in El Salvador, Central America, which explains why you'll find some Español here and there in my posts. I majored in Economics when studying the undergrad back at home, then came to Japan in 2011, graduated from the PhD in Ec

                                                            • Introduction of LINE Data Science Team

                                                              ※2022/4/26更新 LINE株式会社 Data Science室の組織紹介資料です。

                                                              • GitHub - Netflix/metaflow: :rocket: Build and manage real-life ML, AI, and data science projects with ease!

                                                                • Amazon.co.jp: 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック (KS情報科学専門書): 石原祥太郎, 村田秀樹: 本

                                                                  • What I Love about Scrum for Data Science

                                                                    A couple of years ago, I started (read: was made) to adopt scrum in my work. I didn’t like it. The concept of estimation was vague to me: How do we estimate effort for data exploration or research? And after we move something from In Progress to Done, can we move it back? This happens often (in data science) where we need to revisit an upstream step, such as data preparation or feature engineering

                                                                    • Data Scienceチームの成果を最大化するための取り組み(2022年版) - ABEJA Tech Blog

                                                                      はじめに 新規施策・取り組み Technical Document 分析の工夫やDSの思考の蓄積・活用 ドキュメントのテンプレート化 ドキュメンテーションの習慣付け Reviewer System 中間レビューの廃止と代替施策の導入 レビュアーの役割 QA channel (Slack) 質問すること自体のハードルと対処 Q&Aの蓄積 Model Dev Template DS Day アップデートした施策・取り組み DS Review DS Reviewの課題 DS Reviewの効率化 KPT Fest PJ振り返り会のアップデート Technical Documentの活用 Q&Aの蓄積 スケジューリング&リマインドの自動化 Brainstorming トピックの明確化 スケジューリング&リマインドの自動化 さいごに はじめに こんにちは、最近チーム内情シスになりつつあるデータサイエ

                                                                      • Welcome | Data Science at the Command Line, 2e

                                                                        Obtain, Scrub, Explore, and Model Data with Unix Power Tools Welcome to the website of the second edition of Data Science at the Command Line by Jeroen Janssens, published by O’Reilly Media in October 2021. This website is free to use. The contents is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License. You can order a physical copy at Amazon. If y

                                                                        • COVID-19チャレンジ(フェーズ1) | SIGNATE - Data Science Competition

                                                                          お知らせ 2021年12月23日17時をもって、本チャレンジのデータ更新を停止いたしました(データセットの閲覧は可能です)。ご参加いただきました皆様には、多大なるご尽力をいただき誠にありがとうございました。 コンペティション自体は2020年12月31日を持って終了扱いとなりますが、COVID-19チャレンジのサイト(データ収集・分析)は今後も継続提供します。 趣意 現在、新型コロナウイルス感染症(COVID-19)が世界中で猛威を振るい、私たちの暮らしや経済活動に深刻な影響を及ぼしています。感染症対策には、罹患者に関するデータを迅速に収集し公開することが極めて重要です。 現時点における日本国内のCOVID-19に関する情報は、国や自治体などで配信方針がバラバラであり、テキスト形式やPDF形式、画像形式などの非構造データで配信されているものも多く、一元的・網羅的でマシンリーダブルかつデータ分

                                                                          • GitHub - oreilly-japan/data-science-on-aws-jp

                                                                            • Interactive C++ for Data Science

                                                                              Interactive C++ for Data Science In our previous blog post “Interactive C++ with Cling” we mentioned that exploratory programming is an effective way to reduce the complexity of the problem. This post will discuss some applications of Cling developed to support data science researchers. In particular, interactively probing data and interfaces makes complex libraries and complex data more accessibl

                                                                              • 時系列予測モデルの実践論 -昔のKaggleを事例に- - NRI Data Science BLOG

                                                                                Part1 なにはなくともEDA&ベースモデルつくりから! Shimpei Ikeno 2022-07-12 本連載の目的:実践的な”多系列”時系列予測モデルの解き方を紹介 みなさんはじめまして。NRIのデータサイエンティスト、時系列予測プラクティスチームの池野です。Wikipediaによれば、時系列とは、“ある現象の時間的な変化を、連続的に(または一定間隔をおいて不連続に)観測して得られた値の系列(一連の値)のこと”をさします。時系列予測の大家であるRob J. Hyndman教授によれば、予測とは、“将来を、過去のデータや影響を与える将来のイベントなどの活用可能な情報に基づいて、できるだけ正確に見通すこと”とあります。したがって、時系列予測は、時間的な変化の観測結果に基づき将来をできるだけ正確に見通す取組といえましょう。時系列予測モデルは、そのような時間的変化の観測結果からパターンを見

                                                                                • ChatGPT for Data Science Cheat Sheet - KDnuggets

                                                                                  ChatGPT for Data Science Cheat Sheet The latest KDnuggets cheat sheet covers using ChatGPT to your advantage as a data scientist. It's time to master prompt engineering, and here is a handy reference for helping you along the way. The Rise of ChatOps You probably haven't heard of ChatGPT yet... ???? Aside from stealing your job, spreading lies, and plagiarizing on a mass scale (varying degrees of

