概要 本論文では、NL文と(半)構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者:Pengcheng Yin 団体:Carnelgie Mellon University, Facebook AI Research 提案法 Content Snapshot データベーステーブルは大きいので、すべてを使うにはTransformerには重い。そこで、セルの値から必要な行だけ抽出するようにする。手法として
