並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 138件

新着順 人気順

Datasetの検索結果41 - 80 件 / 138件

  • LLM のデータセットまとめ|npaka

    LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

      LLM のデータセットまとめ|npaka
    • グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開

      Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。 地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所(WRI)の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ

        グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開
      • Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ

        概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901

          Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ
        • GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC

          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

            GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC
          • アドレス・ベース・レジストリ|デジタル庁

            アドレス・ベース・レジストリは、ベース・レジストリにおいて住所・所在地のマスターデータ及びその運用システム全体を指します。「アドレス」という言葉を用いているのは、一般的に「住所」は住民が居住する場所を、「所在地」は法人等が事業を営む場所を示すものですが、ベース・レジストリにおいては、住所や所在地に加えて農地や林地の場所など、地番の存在する場所全てを検討対象とすることから、それら全てを包含する意図で「アドレス」という言葉を用いています。 取組の背景住所・所在地の情報は、個人の住所や法人や公共施設の所在地等、官民の多くの台帳の項目として用いられています。住所・所在地は図1のような構造になっていますが、町字情報や住居表示情報は市区町村、地番は登記所でそれぞれ個別に管理されていることから、行政において、標準的な住所・所在地を一元的に管理できていません。さらに、一般に流通している住所・所在地の表記の

              アドレス・ベース・レジストリ|デジタル庁
            • Weights & Biases: The AI Developer Platform

              Build models faster, fine-tune LLMs, develop GenAI applications with confidence, all in one system of record developers are excited to use.

                Weights & Biases: The AI Developer Platform
              • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

                ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

                  Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
                • Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される

                  デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P

                    Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
                  • COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services

                    Amazon Web Services ブログ COVID-19 データの分析用のパブリックデータレイク COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。 今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である

                      COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services
                    • Shinnosuke Takamichi (高道 慎之介) - jvs_corpus

                      This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut

                        Shinnosuke Takamichi (高道 慎之介) - jvs_corpus
                      • KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット

                        KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット:AI・機械学習のデータセット辞典 データセット「KMNIST」について説明。7万枚の手書き文字(くずし字)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。データセットをダウンロードできるPythonファイルについても紹介。

                          KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット
                        • 自由に使える医療データセットまとめ |

                          今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。

                            自由に使える医療データセットまとめ |
                          • リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ

                            リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村吉弘、以下リクルート)は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル(本社:東京都千代田区、代表取締役社長:淺野 健、以下リクルートライフスタイル)が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。 日本語の自然言語処理における課題 自然言語処理とは、私たちが日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し

                              リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
                            • 情報学研究データリポジトリ メルカリデータセット

                              株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新 データ概要 フリマ商品データ 株式会社メルカリが運営する,スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで,個人を特定する情報や非公開情報は含まれません。 具体的なデータの内容は以下の通りです。 アプリ上に公開されている商品データ(出品状態,商品名,商品の説明,販売価格,カテゴリ,商品の状態,サイズ,ブランド,送料の負担,発送の方法,発送元の地域,発送にかかる日数,いいね!の数,コメントの数,出品日時,更新日時) 各商品ページにて公開されているコメントデータ 各商品ページにて公開されている画像データ(対象全商品のサムネイル画像/一週間分のオリジナル画像) 提供中のデータは2020年1月~12月の1年間に出品された商品が対象です。(データは随時更新される予定です) 商品

                              • Dynamic World - 10m global land cover dataset in Google Earth Engine

                                Beginning August 14, 2021, the Caldor Fire burned 221,775 acres in El Dorado County, California, destroying over 1,000 structures and displacing thousands of residents. Days after the start of the fire, land cover changed from “trees” to “shrub/scrub” in Dynamic World. Snow is nothing unusual to people living on the Northeast coast. As the saying goes, if you don’t like the weather in New England,

                                  Dynamic World - 10m global land cover dataset in Google Earth Engine
                                • Fairness入門 ~AIに倫理観を教える~

                                  AIを勉強している皆さんこんにちは。 皆さんはFairnessを知っていますか? FairnessはAIの分野の一つで、近年とても注目されています。そこで、A Survey on Bias and Fairness in Machine LearningというFairnessのサーベイ論文を軸にしてFairnessの入門記事を書くことにしました。 2011年から2017年までのFairnessの論文数 引用元: https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb Fairness(公平)とは AIにおけるFairnessという分野とは、「AIの判断を出来るだけ公平なものにしよう。」という分野です。公平なAIとは何でしょうか。例えば、人間に関する情報を入力とし、その人間が

                                    Fairness入門 ~AIに倫理観を教える~
                                  • データセットダウンロード | MADB Lab

                                    データセットについての説明はこちらを御覧ください。 マンガ マンガ単行本 json-ld (39.4MB) turtle (35.8MB) マンガ雑誌各号 json-ld (6.8MB) turtle (6.3MB) マンガその他 json-ld (359KB) turtle (344KB) マンガ単行本シリーズ json-ld (14.2MB) turtle (13.0MB) マンガ雑誌 json-ld (423KB) turtle (400KB) マンガ雑誌掲載履歴 json-ld (2.1MB) turtle (1.9MB) マンガ雑誌内容細目 json-ld (23.6MB) turtle (21.3MB) マンガ所蔵 json-ld (18.1MB) turtle (17.3MB) アニメ アニメテレビ番組 json-ld (8.7MB) turtle (8.2MB) アニメビデ

                                    • GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc

                                      This repository provides motion datasets collected by Bandai Namco Research Inc. Find here for a README in Japanese. There is a long-standing interest in making diverse stylized motions for games and movies that pursue realistic and expressive character animation; however, creating new movements that include all the various styles of expression using existing methods is difficult. Due to this, Mot

                                        GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
                                      • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                        ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                          Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                        • Welcome

                                          The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

                                            Welcome
                                          • AI・機械学習のデータセット辞典

                                            データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク(CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)に対応するデータセットのコレクション。

                                              AI・機械学習のデータセット辞典
                                            • GitHub - LAION-AI/Open-Assistant: OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - LAION-AI/Open-Assistant: OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.
                                              • Datasette

                                                Datasette is a tool for exploring and publishing data. It helps people take data of any shape, analyze and explore it, and publish it as an interactive website and accompanying API. Datasette is aimed at data journalists, museum curators, archivists, local governments, scientists, researchers and anyone else who has data that they wish to share with the world. It is part of a wider ecosystem of 46

                                                  Datasette
                                                • Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減

                                                  Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減カスタマイズ可能なコンピュータビジョンの提供により、プライバシーを損なうことなくデータへのアクセスを拡大 マルチプラットフォーム向け統合開発環境「Unity」を提供するユニティ・テクノロジーズ・ジャパン株式会社(本社:東京都中央区、代表取締役:豊田 信夫、以下 当社)は、親会社であるUnityがコンピュータビジョンアプリケーションの開発コストを削減し、製造業、小売業、セキュリティ業界向けのAIをより迅速にトレーニングすることを目的とした「Unity Computer Vision Datasets」を発表しました。コンピュータビジョンのソリューション提供者は、厳格なプライバシーおよび規制基準を維持しながら、AIトレーニングの要求に合わせてオーダーメイドのデータセットを購入することができます。 合成データが重要な

                                                    Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減
                                                  • GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
                                                    • 日本語対話コーパス一覧

                                                      日本語対話コーパス一覧 これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。 本リストは、理化学研究所 吉野 幸一郎さん発案のもと、C4A研究所 中野 幹生さん、東北大学 赤間 怜奈さん、大阪大学 駒谷 和範さん、JAIST 吉川 禎洋さん、リクルート 林部 祐太さん、京都大学 児玉 貴志さん、愛知工業大学 徳久 良子さんにご協力をいただき、水上雅博が作成いたしました(所属はリスト作成または更新時のものです)。 もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。 対話コーパス 主に人同士または人とシステム間(2名以上の場合を含む)で、対話(模擬対話等を含む)を行ったコーパスです。 名前 データ量 形式 研究利用 商用利用 概要

                                                      • CC-100: Monolingual Datasets from Web Crawl Data

                                                        This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                                        • Mozilla Common Voice

                                                            Mozilla Common Voice
                                                          • Discovering millions of datasets on the web

                                                              Discovering millions of datasets on the web
                                                            • Overture Maps Foundation – Linux Foundation Project

                                                              Powering current and next-generation map products by creating reliable, easy-to-use, and interoperable open map data

                                                              • OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita

                                                                はじめに ※本記事で「現時点」という言葉は2023/6/1を指すこととします。 先日(2023年5月17日)、サイバーエージェントが日本語に特化したLLM(Large Language Model)をhuggingface上に公開されました。 現時点で日本語に特化したLLMで最大級のパラメータを持つモデル 商用利用可能 という点が非常に魅力的であり、すでにたくさんの方がこのOpenCALM-7Bを動かしたり、チューニングしたりされてるように、自分も勉強がてらこのLLMのチューニングに挑戦してみました。 とはいえ、パラメータ数が68億と巨大ですし、単純な全パラメータのファインチューニングは、私の手元の環境では現実的ではなく、何かしら軽量化したりDeepSpeedなどのライブラリで効率よく処理する必要がありそうです。 今回はLoRA(Low Rank Adaptation)と呼ばれる低リソース

                                                                  OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita
                                                                • GitHub - javascriptdata/danfojs: Danfo.js is an open source, JavaScript library providing high performance, intuitive, and easy to use data structures for manipulating and processing structured data.

                                                                  Danfo.js is fast and supports Tensorflow.js tensors out of the box. This means you can convert Danfo data structure to Tensors. Easy handling of missing-data (represented as NaN) in floating point as well as non-floating point data Size mutability: columns can be inserted/deleted from DataFrame Automatic and explicit alignment: objects can be explicitly aligned to a set of labels, or the user can

                                                                    GitHub - javascriptdata/danfojs: Danfo.js is an open source, JavaScript library providing high performance, intuitive, and easy to use data structures for manipulating and processing structured data.
                                                                  • データ拡張手法である左右反転に理解がいるかも知れない、Visual Chiralityとは

                                                                    3つの要点 ✔️ Data augmentationによく用いられる反転に新しい概念を提唱 ✔️ 人間では気づかなかった左右反転を認識 ✔️ この性質を元にした拡張で、さらなる精度向上が期待できる Visual Chirality written by Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely (Submitted on 16 Jun 2020) Comments: Published by CVPR2020 Subjects: Computer Vision and Pattern Recognition (cs.CV) はじめに 左右反転によるData augmentationは物凄く当たり前なデータ拡張手法であり、特に気にすることなく今まで使用してきた人もいるのではないでしょうか。私も今回の論文を読むまでは結構当たり前のように使っていま

                                                                      データ拡張手法である左右反転に理解がいるかも知れない、Visual Chiralityとは
                                                                    • グーグル「Dataset Search」、ベータ段階が終了--新機能も

                                                                      Googleは米国時間1月23日、「Google Dataset Search」のベータ段階終了と新機能の追加を発表した。このツールは、リサーチャーらがオンラインで利用可能なデータを見つけやすくするよう支援する目的で設計されたものだ。 この検索機能はオンラインで公開されているデータを集積する試みで、2018年に開始された。Google ResearchのリサーチサイエンティストであるNatasha Noy氏によると、これまでに2500万のデータセットをインデックス化したという。対象となるコンテンツは、ペンギンの個体数から医療データに至るまでさまざまであり、リサーチャーらによる仮説の検証や、サイエンティストによる機械学習(ML)アルゴリズムの訓練といった目的で利用できる。 また、同ツールは一般の人々が利用することもできる。例えば「skiing」を検索すると、最速のスキーヤーが出す速度や、スキ

                                                                        グーグル「Dataset Search」、ベータ段階が終了--新機能も
                                                                      • Open Dataset – Waymo

                                                                        The field of machine learning is changing rapidly. Waymo is in a unique position to contribute to the research community, by creating and sharing some of the largest and most diverse autonomous driving datasets. Check out our latest dataset release of Perception Object Assets, which includes 31k unique perception object instances with sensor data for generative modeling! The 2023 Waymo Open Datase

                                                                          Open Dataset – Waymo
                                                                        • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                                          ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                                                            Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                                          • The Pile

                                                                            The Pile An 800GB Dataset of Diverse Text for Language Modeling What is the Pile? The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.

                                                                            • https://laion.ai/laion-400-open-dataset/

                                                                                https://laion.ai/laion-400-open-dataset/
                                                                              • LVIS

                                                                                A new dataset for long tail object detection.

                                                                                  LVIS
                                                                                • MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims | CopeNLU

                                                                                  MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims Abstract We contribute the largest publicly available dataset of naturally occurring factual claims for the purpose of automatic claim verification. It is collected from 26 fact checking websites in English, paired with textual sources and rich metadata, and labelled for veracity by human expert journalists. We p

                                                                                    MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims | CopeNLU

                                                                                  新着記事