Kyle Gorman, Steven Bedrick. ACL 2019. Tweet: https://twitter.com/wellformedness/status/1130129820124368896 PDF: https://www.aclweb.org/anthology/P19-1267/ Podcastでも解説しました. https://anchor.fm/lnlp-ninja/episodes/ep32-We-need-to-talk-about-standard-splits-e457nd 概要 システム性能のランキングを行うために,一般的にはテストセットに対する評価結果が採用されている.しかしその結果が偶然によるものなのか,複数のtrain/testセットで結果は安定しているのか,これらに対する研究はほとんどない.我々は2000-2018における9つのPOSタガ