並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 224件

新着順 人気順

オープンデータの検索結果81 - 120 件 / 224件

  • LLM のデータセットまとめ|npaka

    LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich

      LLM のデータセットまとめ|npaka
    • Dataset Search:Googleによる「データセット検索」サイト

      Dataset Searchは、2018年9月からグーグル(Google)が提供しているサイトの一つで、世界中からデータセットを検索できる(=ググれる)。「機械学習で利用するデータセットを手軽に探したい」という場合に、最初に実行してみるツールとして非常に有用である。通常のGoogle検索では、例えば「PyTorch cats dogs images classification」などのようなキーワードを入れて検索することになるだろうが、その結果、必ずしもデータセットのみがヒットするわけではない。それと比べると、データセットのみを効率的に表示してくれるので便利である。 データセット検索 例えば図1は、Dataset Searchで実際にデータセットを検索しようとしているところである。

        Dataset Search:Googleによる「データセット検索」サイト
      • 国交省、全国56都市を3D都市モデル化完了。オープンデータ公開

          国交省、全国56都市を3D都市モデル化完了。オープンデータ公開
        • Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita

          ABEJAアドベントカレンダー2020の19日目の記事です。 この記事は何? 結局AIって何個データ必要なの?ってよく聞かれると思います。 そんなん知るか この記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ!ってツッコミも歓迎です。 あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます!とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ

            Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
          • 対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している

            Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。 See the websites that make AI bots like ChatGPT sound so smart - Washington Post https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/ OpenAIのChatGPTを皮切りに

              対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している
            • 画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ

              スタンフォード大学インターネット天文台(SIO)の調査により、画像生成AI「Stable Diffusion」などのトレーニングに利用されているオープンデータセットの「LAION-5B」に、児童性的虐待画像(CSAM)が含まれていることが明らかになりました。CSAMの疑いのある画像は3226枚で、そのうち1008枚が外部機関の検証によりCSAMであると確認されました。 Investigation Finds AI Image Generation Models Trained on Child Abuse | FSI https://cyber.fsi.stanford.edu/io/news/investigation-finds-ai-image-generation-models-trained-child-abuse Largest Dataset Powering AI Imag

                画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ
              • LLM開発のためのデータエンジニアリング - Qiita

                LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ(?)が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前

                  LLM開発のためのデータエンジニアリング - Qiita
                • Titanic:タイタニック号乗客者の生存状況(年齢や性別などの13項目)の表形式データセット

                  連載目次 データセット解説 Titanic dataset(タイタニックデータセット。以下、Titanic)は、「1912年に北大西洋で氷山に衝突して沈没したタイタニック号への乗客者の生存状況」の表形式データセット(=構造化データセット)である(図1、複数の研究者が「Encyclopedia Titanica」上から抽出し、Frank E. Harrell, Jr.氏が取りまとめ、Thomas Cason氏が大幅に更新&改善して作成されたデータセットである)。 Titanicは、主に分類(つまり「生存状況の予測」)を目的としたディープラーニング/機械学習/統計学の研究や初心者向けチュートリアルで使われている(※ただし、ディープラーニングを行うにはデータ数が1309件と少なすぎる点に注意が必要だ)。特に、Kaggleの初心者チュートリアル「Titanic: Machine Learning

                    Titanic:タイタニック号乗客者の生存状況(年齢や性別などの13項目)の表形式データセット
                  • Papers With CodeのDatasets: 人気度まで分かるデータセット一覧サイト

                    Papers With CodeのDatasets: 人気度まで分かるデータセット一覧サイト:AI・機械学習のデータセット辞典 データセットが効率よく見つけられるPapers With CodeのDatasetsを紹介。各データセットのページでは、データセット利用に向くタスクや、ベストな性能を発揮するモデル、コードありの論文、各ライブラリのデータローダー、データセットの人気傾向などを確認できる。 連載目次 最近、非常に有用な新しいデータセットの一覧サイトが登場したので紹介したい。 Papers With CodeのDatasetsとは? 「Papers With Code」というサイトをご存じだろうか? さまざまなタスク(例えば画像分類やテキスト生成など)に対して現時点でベストな性能を発揮する「機械学習モデル」や、スターの多い「コードあり論文」などをランキング形式で紹介してくれる、無料でオ

                      Papers With CodeのDatasets: 人気度まで分かるデータセット一覧サイト
                    • 画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能

                      画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能であると報告しました。 Brazil: Children’s Personal Photos Misused to Power AI Tools | Human Rights Watch https://www.hrw.org/news/2024/06/10/brazil-childrens-personal-photos-misused-power-ai-tools AI trained on photos from kids’ entire chi

                        画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能
                      • 江戸マップβ版

                        なお、地名数がゼロの地図は他の地図の拡大版のため、今のところ作業予定はありません。 データセット 江戸マップデータセット 江戸マップβ版の地名をまとめて利用するためのデータセットです。 江戸マップデータセット 江戸マップ「れきちず」データセット 江戸マップβ版から抽出したデータを「れきちず」に統合するためのデータセットです。 江戸マップ「れきちず」データセット 参考文献 北本 朝展, 鈴木 親彦, 寺尾 承子, 堀井 美里, 堀井 洋, "地理的史料を対象とした歴史地名の構造化と統合に基づく江戸ビッグデータの構築", 人文科学とコンピュータシンポジウム じんもんこん2020論文集, pp. 171-178, 2020年12月 [ Paper ] 更新情報 2024-05-01 江戸マップ「れきちず」データセットを公開しました。 2023-10-20 既存の地名を2件修正しました。 2023

                          江戸マップβ版
                        • Fashion-MNIST:ファッション商品(写真)の画像データセット

                          データセット「Fashion-MNIST」について説明。7万枚の写真(ファッション商品)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

                            Fashion-MNIST:ファッション商品(写真)の画像データセット
                          • 声優の利益保護へ音声データを認証 AIカバー対策、初の団体設立へ:朝日新聞デジタル

                            ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                              声優の利益保護へ音声データを認証 AIカバー対策、初の団体設立へ:朝日新聞デジタル
                            • 米Google、自然言語でAndroidデバイスを操作するための学習データセット公開

                              このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Google Researchと米Google DeepMindに所属する研究者らが発表した論文「Android in the Wild: A Large-Scale Dataset for Android Device Control」は、Androidデバイスを自然言語で操作するための大規模な学習データセットを提案した研究報告である。このデータセットには、画面やアクションを含むデバイスのインタラクションの人間によるデモンストレーションと、それに対応する自然言語の指示が含まれている。データセットはこちらから入手できる。 自然言語コマンド

                                米Google、自然言語でAndroidデバイスを操作するための学習データセット公開
                              • KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット

                                KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット:AI・機械学習のデータセット辞典 データセット「KMNIST」について説明。7万枚の手書き文字(くずし字)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。データセットをダウンロードできるPythonファイルについても紹介。

                                  KMNIST/Kuzushiji-MNIST:日本古典籍くずし字(手書き文字)データセット
                                • MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている

                                  Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。 Erotica, Atwood, and 'For Dummies': The Books Behind Meta’s Generative AI - The Atlantic https://www.theatlantic.com/technology/archive/2023/09/books3-ai-training-meta-copyright-infringement-lawsuit/675411/ These 183,000 Books Are Fueling the

                                    MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている
                                  • 画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索)

                                    画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索):AI・機械学習のデータセット辞典 Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。 連載目次 機械学習などで画像データを使いたい場合に、既存のオープンデータセットを活用できれば手軽に済む。しかし既存のものが存在しない場合には自分でデータセットを作る必要があるだろう。画像を集める際に活用したいのがWeb検索エンジンではないだろうか。 実際にGoogleなどで画像検索を行って1つずつ手動で収集することも不可能ではないが、できればプログラムを使ってある程度は自動化したい。そのようなニーズにマッチするPythonライブラリ「icrawler」があるので、本稿ではその使い方を紹介する。 icr

                                      画像データをキーワード検索で効率的に収集する方法(Python「icrawler」のBing検索)
                                    • リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ

                                      リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村吉弘、以下リクルート)は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル(本社:東京都千代田区、代表取締役社長:淺野 健、以下リクルートライフスタイル)が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。 日本語の自然言語処理における課題 自然言語処理とは、私たちが日常的に使っている言語(自然言語)をコンピューターに解析させる一連の処理を指し

                                        リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
                                      • TechCrunch | Startup and Technology News

                                        India’s mobile payments regulator is likely to extend the deadline for imposing market share caps on the popular UPI payments rail by one to two years, sources familiar with the…

                                          TechCrunch | Startup and Technology News
                                        • 画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった

                                          画像生成AI「Stable Diffusion」が使用していることでも知られている、ジェネレーティブAIの学習用データセットを構築する非営利団体が「LAION」です。このLAIONのリーダーを務めるのが、ドイツのハンブルグ市で高校教師として働くクリストフ・シューマン氏です。 A High School Teacher’s Free Image Database Powers AI Unicorns - Bloomberg https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns クリストフ・シューマン氏はウィーン大学でコンピューター科学と物理学を学びながら、ワークショップで6年間にわたって演技を学び、卒業後はハンブルク市で

                                            画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった
                                          • 情報学研究データリポジトリ メルカリデータセット

                                            株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新 データ概要 フリマ商品データ 株式会社メルカリが運営する,スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで,個人を特定する情報や非公開情報は含まれません。 具体的なデータの内容は以下の通りです。 アプリ上に公開されている商品データ(出品状態,商品名,商品の説明,販売価格,カテゴリ,商品の状態,サイズ,ブランド,送料の負担,発送の方法,発送元の地域,発送にかかる日数,いいね!の数,コメントの数,出品日時,更新日時) 各商品ページにて公開されているコメントデータ 各商品ページにて公開されている画像データ(対象全商品のサムネイル画像/一週間分のオリジナル画像) 提供中のデータは2020年1月~12月の1年間に出品された商品が対象です。(データは随時更新される予定です) 商品

                                            • データ共同利用権(仮称)について(案)(宮田教授提出資料)(PDF/170KB)

                                              • 生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞

                                                米スタンフォード大の研究者は20日、画像生成AI(人工知能)の学習用データセット「LAION(ライオン)5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像のURL(アドレス)を集約したデータセットだ。報告書を発表したスタンフォード大

                                                  生成AIの学習データに児童虐待画像 米大学研究者が指摘 - 日本経済新聞
                                                • Hugging FaceのDatasets: 自然言語処理のデータセット提供サイト

                                                  英語ではあるが、詳細な説明は要らないだろう。簡単に概説しておくと、右側にはダウンロード数順で人気のデータセットが一覧表示されている。 キーワード検索できるだけでなく、左側の[Task Categories](タスクのカテゴリー:問題種別の大まかな大分類)/[Tasks](タスク:より具体的な問題種別)/[Languages](言語)/[Multilinguality](多言語性)/[Sizes](データサイズ)/[Licenses](ライセンス)でフィルタリングできる。 機械学習の際に「どのデータセットを使えばよいか」を悩むことはよくあると思うが、このランキング表示は非常に参考になるのではないだろうか。 各データセットのページ内容 図1のデータセット名(例えばwikitext)をクリックしてページを開くと、図2のように表示される。 これも直観的に把握できると思うので、細かな説明は不要だと思

                                                    Hugging FaceのDatasets: 自然言語処理のデータセット提供サイト
                                                  • 民間の立場から、中野区のオープンデータ推進に取り組んでみた話|watambo

                                                    こんにちは、@watamboです。本業では人材系企業に所属しており、プライベートは主に子育てと、行政データを整備・活用する「キカク」という会社をやっています。 今年の7月頃にこんなツイートをし、その結果多くの人にRTやFavをいただいたことがありました。 行政が保有するオープンデータを整備し、使いやすくする会社をやっていて、今は許認可に関するデータを集める取り組みをしています。1都3県については、データベース運用を開始できているのですが、中野区だけデータの提供に180万円ほどかかると言われてしまい、まだデータをもらえていない状況です。 pic.twitter.com/XfSTci1tyM — 渡邊 亮輔 (@watambo) July 13, 2020 実はこの件、去年の11月頃に始まったことです・・・。 ただ、1年かけて、ようやく解決の糸口が見えてきました。今日はこれまで取り組んだことを

                                                      民間の立場から、中野区のオープンデータ推進に取り組んでみた話|watambo
                                                    • GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc

                                                      This repository provides motion datasets collected by Bandai Namco Research Inc. Find here for a README in Japanese. There is a long-standing interest in making diverse stylized motions for games and movies that pursue realistic and expressive character animation; however, creating new movements that include all the various styles of expression using existing methods is difficult. Due to this, Mot

                                                        GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
                                                      • GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット

                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                          GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット
                                                        • Wikipediaを用いた日本語の固有表現抽出データセットの公開

                                                          ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ

                                                            Wikipediaを用いた日本語の固有表現抽出データセットの公開
                                                          • TechCrunch | Startup and Technology News

                                                            The Twitter for Android client was “a demo app that Google had created and gave to us,” says Particle co-founder and ex-Twitter employee Sara Beykpour.

                                                              TechCrunch | Startup and Technology News
                                                            • 新型コロナワクチンの接種状況に関するオープンデータ仕様 / ワクチン接種記録システム(VRS)

                                                              概要新型コロナワクチンの接種状況を、オープンデータとして一般公開しています。本ドキュメントは、その配信およびデータ構造に関する仕様書です。 以下の種類のオープンデータを提供しております。 なお、接種実績データは毎日1回更新されていますが、オープンデータの更新タイミングはダッシュボードと同時ではありません。 オープンデータ形式説明

                                                              • ZOZO研究所、ZOZOTOWNのファッション推薦データとアルゴリズム研究開発基盤をオープンソースで公開 - 株式会社ZOZO

                                                                ニュース ZOZO研究所、ZOZOTOWNのファッション推薦データとアルゴリズム研究開発基盤をオープンソースで公開 ZOZOグループの研究開発組織「ZOZO研究所」は、大規模ファッション推薦データと研究基盤となる「Open Bandit(※1)Data & Pipeline」をオープンソースとして公開しました。 現在、米中の少数の大企業によるデータと技術の占有により、外部の企業や技術者が同じ土俵で技術進歩に貢献することが難しいという懸念が強まっています。(※2) この問題に歯止めをかけ、日本企業からの積極的な技術貢献を目指すべく、ZOZOグループが保有する大規模データおよびソフトウェアパイプラインを公開する運びとなりました。今後、日本発のデータ技術のオープンイノベーションを促進するきっかけとなることを目指しています。 Open Bandit Dataは、ZOZOTOWN上での実際の推薦アル

                                                                  ZOZO研究所、ZOZOTOWNのファッション推薦データとアルゴリズム研究開発基盤をオープンソースで公開 - 株式会社ZOZO
                                                                • Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット

                                                                  Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット:AI・機械学習のデータセット辞典 データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。

                                                                    Wiki-40B:高品質に加工された、40以上の言語のWikipediaデータセット
                                                                  • Free public datasets for COVID-19 | Google Cloud Blog

                                                                    COVID-19 public datasets: supporting organizations in their pandemic responseSee how organizations have used the BigQuery COVID-19 public dataset for research, healthcare, and more. By Johanna Katz • 5-minute read These datasets remove barriers and provide access to critical information quickly and easily, eliminating the need to search for and onboard large data files. Researchers can access the

                                                                      Free public datasets for COVID-19 | Google Cloud Blog
                                                                    • Welcome

                                                                      The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im

                                                                        Welcome
                                                                      • 表情豊かなキャラクター作成を深層学習で 中国チームが制作システムとデータセット公開

                                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 iDVX Lab、同済大学、香港科技大学による中国の研究チームが開発した「EmoG」は、ユーザーが手書きでスケッチした人物に対し、「幸せ」や「怒り」など6つの感情表現を自動生成するシステムだ。自動生成の提案に対し、ユーザーは調整を加えて好みの絵に仕上げられる。

                                                                          表情豊かなキャラクター作成を深層学習で 中国チームが制作システムとデータセット公開
                                                                        • Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット

                                                                          Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット:AI・機械学習のデータセット辞典 データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

                                                                            Large Movie Review:IMDb映画レビューコメントの「肯定的/否定的」感情分析用データセット
                                                                          • AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

                                                                            MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05 272 73 20 23 人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。 データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知

                                                                              AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
                                                                            • A Review of Public Japanese Training Sets

                                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                                A Review of Public Japanese Training Sets
                                                                              • トップページ | 内閣感染症危機管理統括庁ホームページ

                                                                                令和6年1月12日、シンポジウム「新たな感染症危機にいかに備えるか~国民の生命・健康と生活・経済の両立を目指して~」を開催しました。

                                                                                  トップページ | 内閣感染症危機管理統括庁ホームページ
                                                                                • AI・機械学習のデータセット辞典

                                                                                  データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク(CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)に対応するデータセットのコレクション。

                                                                                    AI・機械学習のデータセット辞典