並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 237件

新着順 人気順

*datasetの検索結果41 - 80 件 / 237件

  • MVTec Anomaly Detection Dataset: MVTec Software

    MVTec AD is a dataset for benchmarking anomaly detection methods with a focus on industrial inspection. It contains over 5000 high-resolution images divided into fifteen different object and texture categories. Each category comprises a set of defect-free training images and a test set of images with various kinds of defects as well as images without defects. Pixel-precise annotations of all anoma

    • バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み / data-centric-ai-bakuraku-dataset

      2023年6月1日 第1回 Data-Centric AI勉強会(https://dcai-jp.connpass.com/event/282385/) における登壇資料です。 バクラクのAI-OCR機能における機械学習活用に際してどのように質の高いデータセットを作成してきたかについてお話ししました。

        バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み / data-centric-ai-bakuraku-dataset
      • Cross-modality meta-survey of dataset

        cvpaper.challenge の メタサーベイ発表スライドです。 cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。 http://xpaperchallenge.org/cv/ Read less

          Cross-modality meta-survey of dataset
        • GitHub - IBM/Project_CodeNet: This repository is to support contributions for tools for the Project CodeNet dataset hosted in DAX

          A decade ago, Marc Andreessen famously wrote that "software is eating the world." Software now permeates every part of our existence; Google services combine for 2 billion lines of code, and a modern vehicle contains around 100 million lines of code. It's a monumental challenge to create, debug, maintain, and update these complex software systems. Recently, a fast-growing discipline known as AI fo

            GitHub - IBM/Project_CodeNet: This repository is to support contributions for tools for the Project CodeNet dataset hosted in DAX
          • Novel Corona Virus 2019 Dataset

            Day level information on covid-19 affected cases

              Novel Corona Virus 2019 Dataset
            • Sakuga-42M Dataset: Scaling Up Cartoon Research

              Hand-drawn cartoon animation employs sketches and flat-color segments to create the illusion of motion. While recent advancements like CLIP, SVD, and Sora show impressive results in understanding and generating natural video by scaling large models with extensive datasets, they are not as effective for cartoons. Through our empirical experiments, we argue that this ineffectiveness stems from a not

              • AnswerCarefully Dataset – RIKEN-AIP, LIAT

                新着情報 AnswerCarefully Dataset バージョン1.0を公開 (2024/4/30) 概要 日本語LLM 出力の安全性・適切性に特化したインストラクション・データAnswerCarefully(AC)データセットVersion 1 を公開します。このデータセットは、英語の要注意回答を集めたDo-Not-Answer データセット の包括的なカテゴリ分類に基づき、人手で質問・回答ともに日本語サンプルを集めたオリジナルのデータセットです。 データセットの特徴 5つのリスクタイプ(大分類)、12の有害カテゴリ(中分類)、61のサブカテゴリ(小分類)をカバーしています。Version 1は各サブカテゴリにつき10から20のサンプルを含む計945件からなっています。 このうち各サブカテゴリから3件ずつ、計183件をテストデータ、残り762件をを開発データとして2つのファイルに分け

                • Iris Dataset:あやめ(花びら/がく片の長さと幅の4項目)の表形式データセット

                  Iris Dataset:あやめ(花びら/がく片の長さと幅の4項目)の表形式データセット:AI・機械学習のデータセット辞典 データセット「Iris」について説明。150件のあやめの「表形式データ(花びら/がく片の長さと幅の4項目)」+「ラベル(3種類のあやめの分類)」が無料でダウンロードでき、多クラス分類問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learnとTensorFlowにおける利用コードも紹介。

                    Iris Dataset:あやめ(花びら/がく片の長さと幅の4項目)の表形式データセット
                  • The C4 Multilingual Dataset · allenai/allennlp · Discussion #5265

                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                      The C4 Multilingual Dataset · allenai/allennlp · Discussion #5265
                    • GoogleのDataset Searchに基づいたデータセットの公開・利用についての分析(記事紹介)

                      2020年8月25日、Google AIのブログ“Google AI Blog”で、オンラインで公開されているデータセットの分析に関する記事が投稿されました。この分析はGoogleが提供するDataset Searchを使用して実施されています。なお、この記事は、セマンティックウェブに関する国際会議である2020 International Semantic Web Conference (ISWC 2020)に採択された論文“Google Dataset Search by the Numbers”を要約したものとなっています。 Dataset Searchはschema.orgの標準に沿ったメタデータから、データセットを収集しています。Dataset Searchにインデックスされているデータセットの件数は3,100万件以上であり、4,600件以上のインターネットドメインからそれらが収

                        GoogleのDataset Searchに基づいたデータセットの公開・利用についての分析(記事紹介)
                      • GitHub - mhagiwara/github-typo-corpus: GitHub Typo Corpus: A Large-Scale Multilingual Dataset of Misspellings and Grammatical Errors

                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                          GitHub - mhagiwara/github-typo-corpus: GitHub Typo Corpus: A Large-Scale Multilingual Dataset of Misspellings and Grammatical Errors
                        • Googleが機械学習用のデータセットをインターネット上から検索可能な「Dataset Search」を正式公開 - GIGAZINE

                          機械学習でアルゴリズムを構築する上で重要なのが「データセット」です。アルゴリズムの精度を上げるためにはより多くのデータと時間が求められますが、十分に大規模なデータセットを集めたり探したりするのは機械学習を行う上で特に苦労するポイント。そんなデータセットをオンライン上から検索できる「Dataset Search」の正式版をGoogleが公開しました。 Dataset Search https://datasetsearch.research.google.com/ Discovering millions of datasets on the web https://blog.google/products/search/discovering-millions-datasets-web/ Dataset Searchにアクセスするとこんな感じ。 データセットを検索するには、入力欄に検索した

                            Googleが機械学習用のデータセットをインターネット上から検索可能な「Dataset Search」を正式公開 - GIGAZINE
                          • GitHub - X-zhangyang/Real-World-Masked-Face-Dataset: Real-World Masked Face Dataset,口罩人脸数据集

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - X-zhangyang/Real-World-Masked-Face-Dataset: Real-World Masked Face Dataset,口罩人脸数据集
                            • Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation

                              Off-policy evaluation (OPE) aims to estimate the performance of hypothetical policies using data generated by a different policy. Because of its huge potential impact in practice, there has been growing research interest in this field. There is, however, no real-world public dataset that enables the evaluation of OPE, making its experimental studies unrealistic and irreproducible. With the goal of

                              • QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ"

                                機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ

                                  QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ"
                                • GitHub - ieee8023/covid-chestxray-dataset: We are building an open database of COVID-19 cases with chest X-ray or CT images.

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - ieee8023/covid-chestxray-dataset: We are building an open database of COVID-19 cases with chest X-ray or CT images.
                                  • GitHub - mediaarts-db/dataset: メディア芸術データベース(ベータ版)データセット

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - mediaarts-db/dataset: メディア芸術データベース(ベータ版)データセット
                                    • RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models — Together AI

                                      RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models Today, we’re releasing a new version of the RedPajama dataset, with 30 trillion filtered and deduplicated tokens (100+ trillions raw) from 84 CommonCrawl dumps covering 5 languages, along with 40+ pre-computed data quality annotations that can be used for further filtering and weighting. Over the last hal

                                        RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models — Together AI
                                      • モデルを蒸留するのではなくデータセットを蒸留する(論文紹介②Dataset Distillation) - β日記

                                        蒸留とは 中学生の時に化学で学んだ蒸留について、 蒸留(じょうりゅう、Distillation)とは、混合物を一度蒸発させ、後で再び凝縮させることで、沸点の異なる成分を分離・濃縮する操作をいう。 引用元:Wikipedia 深く、大きいモデルが優秀であることは想像に難くありません。しかし、実際にはそのような大きいモデルが使用できないが機械学習モデルを使用したい場面があります(ラズパイとかでやる時など)。そのような時に、深く大きいニューラルネットワークの知識を蒸留し、より浅く小さいニューラルネットワークへ学習させるために使われるものです。特に大きいモデルを教師モデル、小さいモデルを生徒モデルと言います。つまり性能をできるだけそのままに教師モデルから生徒モデルへ知識の継承を行うことを目的としています。これについての元論文は以下です。 Distilling the Knowledge in a

                                          モデルを蒸留するのではなくデータセットを蒸留する(論文紹介②Dataset Distillation) - β日記
                                        • ToTTo: A Controlled Table-to-Text Generation Dataset

                                          Philosophy We strive to create an environment conducive to many different types of research across many different time scales and levels of risk. Learn more about our Philosophy Learn more

                                            ToTTo: A Controlled Table-to-Text Generation Dataset
                                          • [TensorFlow 2.x対応版] TensorFlow (Keras) で TFRecord & DataSetを使って大量のデータを学習させる方法 - Qiita

                                            [TensorFlow 2.x対応版] TensorFlow (Keras) で TFRecord & DataSetを使って大量のデータを学習させる方法Python機械学習KerasTensorFlow はじめに 以前の記事のアップデート版になります。 TensorFlow & Keras で TFRecord & DataSetを使って大量のデータを学習させる方法 - Qiita やりたいことは一点、「メモリに入り切らない巨大データを学習させる効率的な方法がほしい」ということです。 CPUのデータ読み込みとGPUの計算が並行処理できるような方法ですね。 DataSet APIを使って、特定のフォーマットで保存したデータからの学習を効率的に行っていきます。 TensorFlow 2がリリースされ、以前のバージョンの記事と比べてモジュールの名前が変わったり、一部の処理が簡単に書けるようにな

                                              [TensorFlow 2.x対応版] TensorFlow (Keras) で TFRecord & DataSetを使って大量のデータを学習させる方法 - Qiita
                                            • GitHub - facebookresearch/audio2photoreal: Code and dataset for photorealistic Codec Avatars driven from audio

                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                GitHub - facebookresearch/audio2photoreal: Code and dataset for photorealistic Codec Avatars driven from audio
                                              • データのリサーチが効率的にできる。「Google Dataset Search」とは?

                                                Webマーケターは日々膨大な量のデータを扱う職業ですが、その中で自社のマーケティングに活きるものを探し出し、解析していくのは非常に時間のかかる作業です。日々更新されるオープンデータの全てにアクセスするのは不可能ですし、検索するのにも一苦労でした。そんな状況を改善し、データサイエンティストやWebマーケターのデータドリブンな施策を推進するためにリリースされたのがGoogle Dataset Searchです。データ活用をさらに簡単に、素早く行えるようになるGoogle Dataset Searchの使い方や利用するメリットを詳しく解説しているので、データに基づいたマーケティング施策を打ち出したいと考えているマーケターはぜひ参考にしてみてください。 Google Dataset Searchとは Google Dataset Searchとは、Googleが発表したデータ検索を簡易化するための

                                                  データのリサーチが効率的にできる。「Google Dataset Search」とは?
                                                • Your Dataset Is Imbalanced? Do Nothing!

                                                  Class imbalance is not a problem. Debunking one of the most widespread misconceptions in the ML community.

                                                    Your Dataset Is Imbalanced? Do Nothing!
                                                  • MIMII Dataset: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection

                                                    Factory machinery is prone to failure or breakdown, resulting in significant expenses for companies. Hence, there is a rising interest in machine monitoring using different sensors including microphones. In the scientific community, the emergence of public datasets has led to advancements in acoustic detection and classification of scenes and events, but there are no public datasets that focus on

                                                    • GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
                                                      • Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving Product Search

                                                        Improving the quality of search results can significantly enhance users experience and engagement with search engines. In spite of several recent advancements in the fields of machine learning and data mining, correctly classifying items for a particular user search query has been a long-standing challenge, which still has a large room for improvement. This paper introduces the "Shopping Queries D

                                                        • GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - megagonlabs/ebe-dataset: Evidence-based Explanation Dataset (AACL-IJCNLP 2020)
                                                          • JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension

                                                            Question Answering (QA) is a task in which a machine understands a given document and a question to find an answer. Despite impressive progress in the NLP area, QA is still a challenging problem, especially for non-English languages due to the lack of annotated datasets. In this paper, we present the Japanese Question Answering Dataset, JaQuAD, which is annotated by humans. JaQuAD consists of 39,6

                                                            • How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI

                                                              ← Back to blog How To Finetune GPT Like Large Language Models on a Custom Dataset Posted on May 19, 2023 by Aniket Maurya - Blog, Tutorials Takeaways Learn how to finetune large language models (LLMs) on a custom dataset. We will be using Lit-GPT, an optimized collection of open-source LLMs for finetuning and inference. It supports – LLaMA 2, Falcon, StableLM, Vicuna, LongChat, and a couple of oth

                                                                How To Finetune GPT Like Large Language Models on a Custom Dataset - Lightning AI
                                                              • Create a k-means model to cluster London bicycle hires dataset  |  BigQuery  |  Google Cloud

                                                                Send feedback Create a k-means model to cluster London bicycle hires dataset Stay organized with collections Save and categorize content based on your preferences. BigQuery ML supports unsupervised learning . You can apply the k-means algorithm to group your data into clusters. Unlike supervised machine learning, which is about predictive analytics, unsupervised learning is about descriptive analy

                                                                  Create a k-means model to cluster London bicycle hires dataset  |  BigQuery  |  Google Cloud
                                                                • Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer - Digital Nature Group

                                                                  Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer The goshuin is a vermilion stamped and inked text that can be obtained as a proof of visit to a shrine or temple. It has been in circulation mainly in Japan since the Middle Ages, and in recent years, the artistic quality of the goshuin has been appreciated and is

                                                                    Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer - Digital Nature Group
                                                                  • colabでkaggleのdatasetをマウントする

                                                                    1. kaggleのdatasetのgcsのリンクを取得する kaggleのnotebookで以下を実行する from kaggle_datasets import KaggleDatasets GCS_PATH = KaggleDatasets().get_gcs_path() print(GCS_PATH) notebookの作成は,マウントしたいデータセットのNew Notebookから作成する (これはtimmの例) 開催中のコンペのdatasetをマウントしたい場合は,コンペのページからNew Notebookする 2. colabでマウントする 2.1. gcpの認証をする

                                                                      colabでkaggleのdatasetをマウントする
                                                                    • Unsplash Dataset | The world’s largest open library dataset

                                                                      Unsplash Dataset Access the world’s largest open library dataset. Train and test models using the largest collaborative image dataset ever openly shared. The Unsplash Dataset is created by 250,000+ contributing photographers and billions of searches across thousands of applications, uses, and contexts. Real visual searches Access data generated by billions of visual searches to go beyond object de

                                                                      • GitHub - yiskw713/pytorch_template: Pytorch Implementation example of Image Classification with flowers recognition dataset

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - yiskw713/pytorch_template: Pytorch Implementation example of Image Classification with flowers recognition dataset
                                                                        • The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

                                                                          Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea

                                                                          • BERTで行う文章分類 PART5 (PytorchのDataLoaderとDataset編) - Qiita

                                                                            この章では、PytorchのDatasetとDataLoaderについて解説していきます。 この章はhttps://gotutiyan.hatenablog.com/entry/2020/04/21/182937 を参考に記述されています。 Pytorchでは、DatasetとDataLoaderを用いることで、簡単にミニバッチ化をすることができます。 Datasetの実装 DataSetを実装する際には、クラスのメンバ関数としてlen()とgetitem()を必ず作ります。 len()は、len()を使ったときに呼ばれる関数です。 getitem()は、array[i]のように[ ]を使って要素を参照するときに呼ばれる関数です。これが呼ばれる際には、必ず何かしらのindexが指定されているので、引数にindexの情報を取ります。また、入出力のペアを返すように設計します。 以上を踏まえて、

                                                                              BERTで行う文章分類 PART5 (PytorchのDataLoaderとDataset編) - Qiita
                                                                            • GitHub - sayakpaul/MLP-Mixer-CIFAR10: Implements MLP-Mixer (https://arxiv.org/abs/2105.01601) with the CIFAR-10 dataset.

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                GitHub - sayakpaul/MLP-Mixer-CIFAR10: Implements MLP-Mixer (https://arxiv.org/abs/2105.01601) with the CIFAR-10 dataset.
                                                                              • WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning

                                                                                The milestone improvements brought about by deep representation learning and pre-training techniques have led to large performance gains across downstream NLP, IR and Vision tasks. Multimodal modeling techniques aim to leverage large high-quality visio-linguistic datasets for learning complementary information (across image and text modalities). In this paper, we introduce the Wikipedia-based Imag

                                                                                • PanaceaLab - COVID19 Twitter Dataset Homepage

                                                                                  Latest update: 3/14/2021 - Version 53 of the dataset has been released. It can be found in: https://doi.org/10.5281/zenodo.3723939 .This incorporates all the dailies until 3/13 and version 52 of the dataset. Dailies have been added for 3/13, 3/12, and 3/11 in the Github dailies An Open Resource for the Global Research Community Due to the relevance of the COVID-19 global pandemic, we are releasing