一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。 そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。 もし、未来のデータがモデルの学習データに混入すると、本来は利用できないデータにもとづいた楽観的な予測が得られてしまう。 今回は、そんな時系列データの交差検証と scikit-learn の TimeSeriesSplit の改良について書いてみる。 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G3020 $ python -V Python 3.8.1 下準備 あらかじめ、必要なパッケージをインストールしておく。 $ pip install scikit-le
本記事は, 2021年度PFN夏季インターンシップで勤務した結城 凌さんによる寄稿です. はじめに 2021年度夏季インターンシップに参加した東京大学数理情報学専攻博士課程の結城 凌と申します.今回のインターンシップでは変化検知および変数同定について取り組みました. ロボティクス・医療・経済の様々な場面において,故障・病気・経済危機などの重大なリスクが存在し,これらを検知し未然に防ぎたいというニーズが古くから存在しています.そして,これらのリスクはセンサ値・診断データ・株価などの「変化」を伴うことが多いという特性があります.この特性を利用してリスクの検知に繋げる,変化検知というテーマが古くから研究されています(Basseville and Nikiforov, 1993).近年その中の一つである変数同定というテーマが研究されています.これは,多次元の時系列データに対し,変化を検知するだけで
本記事は、2019年夏のインターンシップに参加された太田真人さんによる寄稿です。 こんにちは、2019年夏のインターン生だった関西学院大学大学院M1の太田です。大学では、ベイズモデリングの応用で研究しています。インターンでおこなった業務について紹介します。 概要 私は、時系列予測に取り組みました。実問題では、データを細かい時間スケールで長期間保存できず、過去のデータから秒を分スケールに集約して保存することがあります。 他にも、数年前までは、1ヶ月や1日単位で来場者数(売り上げ)をカウントしていましたが、最近は、高い時間分解能(日にち、時間単位)で予測したい需要が高まり、細かくデータを取り始めることもあると考えます。 その場合、データを集めたばかりの頃は、時系列長が短く予測が難しいことがあります。そこで、集約されていない時系列データは直近の短い期間しかないが、集約された時系列データは長期間あ
Track knowledge states of 1M+ students in the wild
4-4. 時系列データの解析 東京大学 数理・情報教育研究センター 東京大学 数理・情報教育研究センター 北川源四郎 2020 CC BY-NC-SA 東京大学 数理・情報教育研究センター 4-4 時系列データ解析 東京大学 数理・情報教育研究センター 2020年5月11日 4-4. 時系列データの解析 東京大学 数理・情報教育研究センター 東京大学 数理・情報教育研究センター 北川源四郎 2020 CC BY-NC-SA 東京大学 数理・情報教育研究センター 概要 • 本節では,まず時系列とは何か,時系列データ解析の⽬的は何か など時系列データ解析の概略について学びます. • 次に,時系列データがもつトレンド,周期性,季節性,ノイズに ついてその意味を学ぶとともに、移動平均,階差などによる情報 抽出の⽅法とスペクトや相関関数による特徴可視化を学びます. • さらに,時系列モデルを⽤いた予
数理・データサイエンス・AI教育強化拠点コンソーシアム MIセンターは、2022年度政府予算に盛り込まれた「数理・データサイエンス・AI教育の全国展開の推進」事業の東京大学における実施主体です。 同事業で選定された29大学(拠点校11大学、特定分野校18大学)のコンソーシアムの幹事校として、大学、産業界、研究機関等と幅広くネットワークを形成し、地域や分野における先進的教育モデルの拠点として、数理・データサイエンス・AIの実践的教育の全国普及に努めます。 同時に、この分野を牽引できる国際競争力のある人材および産学で活躍できるトップクラスのエキスパート人材の育成を目指します。 [コンソーシアムホームページ] 数理・データサイエンス・AIの活用事例動画 本動画集は数理・データサイエンス・AIリテラシーレベル教材の導入となるような活用事例を収集したものです。数理・データサイエンス・AIリテラシーレ
はじめに 論文ではなく、以下の記事から。 towardsdatascience.com splitting a time series without causing data leakage using nested cross-validation to obtain an unbiased estimate of error on an independent test set cross-validation with datasets that contain mltiple time series とのこと。時系列データからleakさせずにtest set, validation setをどう取れば良いか悩んでいて発見。 わかりやすくまとまっていてありがたい。 通常のnested cross validationについては以下を。 univprof.com blog.ameda
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く