タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmと*dataとcs.CLに関するsh19910711のブックマーク (1)

  • 【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita

    概要 論文では、NL文と(半)構造化テーブルの表現を合同で学習する事前学習済みLMであるTABERTを紹介する。TABERTは2600万個の表とその英語文脈からなる大規模なコーパスで学習される。実験では、TABERTを特徴表現層として用いたニューラル意味解析器が、弱教師あり意味解析ベンチマークであるWIKITABLEQUESTIONSで最良の結果を達成し、テキストtoSQLデータセットのSPIDERでも競争力のある性能を発揮することが分かった。 ACL 2020 第一著者:Pengcheng Yin 団体:Carnelgie Mellon University, Facebook AI Research 提案法 Content Snapshot データベーステーブルは大きいので、すべてを使うにはTransformerには重い。そこで、セルの値から必要な行だけ抽出するようにする。手法として

    【論文要約】TABERT: Pretraining for Joint Understanding of Textual and Tabular Data - Qiita
    sh19910711
    sh19910711 2024/05/03
    "TABERT: 文と(半)構造化テーブルの表現を合同で学習 / WDC WebTable Corpus: WikipediaとCommonCrawlから収集した大規模テーブルデータ / 評価: Spiderデータセットを用いてテキストからSQL文を予測するタスク" arXiv:2005.08314 2022
  • 1