[3ページ] オープンデータの人気記事 224件

81 - 120 件 / 224件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

オープンデータの検索結果81 - 120 件 / 224件

LLM のデータセットまとめ｜npaka
- 34 users
- note.com/npaka
- テクノロジー
- 2023/04/03
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich
Dataset Search：Googleによる「データセット検索」サイト
- 33 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/15
Dataset Searchは、2018年9月からグーグル（Google）が提供しているサイトの一つで、世界中からデータセットを検索できる（＝ググれる）。「機械学習で利用するデータセットを手軽に探したい」という場合に、最初に実行してみるツールとして非常に有用である。通常のGoogle検索では、例えば「PyTorch cats dogs images classification」などのようなキーワードを入れて検索することになるだろうが、その結果、必ずしもデータセットのみがヒットするわけではない。それと比べると、データセットのみを効率的に表示してくれるので便利である。データセット検索例えば図1は、Dataset Searchで実際にデータセットを検索しようとしているところである。
- 機械学習
- google
- 検索
- math
- HotEntry
- サイト
- 学習
国交省、全国56都市を3D都市モデル化完了。オープンデータ公開
- 33 users
- www.watch.impress.co.jp
- 政治と経済
- 2021/08/06
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 32 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます！とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ
対話型AIの学習に使われているGoogleのデータセット「C4」には4chanや白人至上主義者のサイトなど問題のあるコンテンツが大量に混入している
- 32 users
- gigazine.net
- テクノロジー
- 2023/04/20
Metaが2023年2月に公開した大規模言語モデル「LLaMA」を始めとするAIのトレーニングには、Googleが作成した巨大データセット「Colossal Clean Crawled Corpus(C4)」が使用されています。C4は名前の通り「クリーン」なデータで構成されているはずですが、海外メディア・The Washington PostとAI研究者の分析により、このC4に有害なコンテンツが大量に紛れ込んでいることが発覚しました。 See the websites that make AI bots like ChatGPT sound so smart - Washington Post https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/ OpenAIのChatGPTを皮切りに
- Google
- あとで読む
- gigazine
- 文章
- 人工知能
- AI
画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ
- 31 users
- gigazine.net
- テクノロジー
- 2023/12/21
スタンフォード大学インターネット天文台(SIO)の調査により、画像生成AI「Stable Diffusion」などのトレーニングに利用されているオープンデータセットの「LAION-5B」に、児童性的虐待画像(CSAM)が含まれていることが明らかになりました。CSAMの疑いのある画像は3226枚で、そのうち1008枚が外部機関の検証によりCSAMであると確認されました。 Investigation Finds AI Image Generation Models Trained on Child Abuse | FSI https://cyber.fsi.stanford.edu/io/news/investigation-finds-ai-image-generation-models-trained-child-abuse Largest Dataset Powering AI Imag
- AI
- 人工知能
- 画像
- web
LLM開発のためのデータエンジニアリング - Qiita
- 31 users
- qiita.com/cvusk
- テクノロジー
- 2023/12/24
LLM開発のためのデータエンジニアリング MLOps Advent Calendar 2023の24日目です。 Stability AIでデータ系のソフトウェアエンジニアをやっているcvuskです。主な仕事は日本語LLMのためのデータ開発です。Stability AIでは日本語LLMも各種開発しています。LLMの学習というと大量のGPUを用意して巨大なデータでモデルを学習する、というキラキラしたイメージ（？）が強いかもしれませんが、データが重要かつ苦労が耐えない課題であることは他の機械学習やディープラーニングモデルと違いありません。日本語のテキストデータは英語ほど入手しやすいわけではないのと同時に、データエンジニアリングや品質面でもいろいろと大変なことが多々あります。今回はLLMのためのテキストデータの用途やエンジニアリングについて整理します。 LLMの学習 LLMの学習は大きく分けて事前
- LLM
- データ
- あとで読む
- qiita
- data
- 資料
- 開発
Titanic：タイタニック号乗客者の生存状況（年齢や性別などの13項目）の表形式データセット
- 31 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/02
連載目次データセット解説 Titanic dataset（タイタニックデータセット。以下、Titanic）は、「1912年に北大西洋で氷山に衝突して沈没したタイタニック号への乗客者の生存状況」の表形式データセット（＝構造化データセット）である（図1、複数の研究者が「Encyclopedia Titanica」上から抽出し、Frank E. Harrell, Jr.氏が取りまとめ、Thomas Cason氏が大幅に更新＆改善して作成されたデータセットである）。 Titanicは、主に分類（つまり「生存状況の予測」）を目的としたディープラーニング／機械学習／統計学の研究や初心者向けチュートリアルで使われている（※ただし、ディープラーニングを行うにはデータ数が1309件と少なすぎる点に注意が必要だ）。特に、Kaggleの初心者チュートリアル「Titanic: Machine Learning
- これはすごい
- あとで読む
Papers With CodeのDatasets：人気度まで分かるデータセット一覧サイト
- 31 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/06/30
Papers With CodeのDatasets：人気度まで分かるデータセット一覧サイト：AI・機械学習のデータセット辞典データセットが効率よく見つけられるPapers With CodeのDatasetsを紹介。各データセットのページでは、データセット利用に向くタスクや、ベストな性能を発揮するモデル、コードありの論文、各ライブラリのデータローダー、データセットの人気傾向などを確認できる。連載目次最近、非常に有用な新しいデータセットの一覧サイトが登場したので紹介したい。 Papers With CodeのDatasetsとは？「Papers With Code」というサイトをご存じだろうか？　さまざまなタスク（例えば画像分類やテキスト生成など）に対して現時点でベストな性能を発揮する「機械学習モデル」や、スターの多い「コードあり論文」などをランキング形式で紹介してくれる、無料でオ
画像生成AIのStable Diffusionなどに使われるデータセット「LAION-5B」に同意のない子どもの写真が含まれており身元まで特定可能
- 30 users
- gigazine.net
- テクノロジー
- 2024/06/11
画像生成AIのStable Diffusionなどのトレーニングには、約58億5000万もの画像とテキストの組み合わせからなるデータセット「LAION-5B」が用いられています。新たに人権NGOのヒューマン・ライツ・ウォッチ(HRW)が、LAION-5Bにはブラジルの子どもたちの写真が同意なしで使われており、多くの子どもたちは身元まで追跡可能であると報告しました。 Brazil: Children’s Personal Photos Misused to Power AI Tools | Human Rights Watch https://www.hrw.org/news/2024/06/10/brazil-childrens-personal-photos-misused-power-ai-tools AI trained on photos from kids’ entire chi
- 人工知能
- AI
江戸マップβ版
- 30 users
- codh.rois.ac.jp
- テクノロジー
- 2020/07/01
なお、地名数がゼロの地図は他の地図の拡大版のため、今のところ作業予定はありません。データセット江戸マップデータセット江戸マップβ版の地名をまとめて利用するためのデータセットです。江戸マップデータセット江戸マップ「れきちず」データセット江戸マップβ版から抽出したデータを「れきちず」に統合するためのデータセットです。江戸マップ「れきちず」データセット参考文献北本朝展, 鈴木親彦, 寺尾承子, 堀井美里, 堀井洋, "地理的史料を対象とした歴史地名の構造化と統合に基づく江戸ビッグデータの構築", 人文科学とコンピュータシンポジウムじんもんこん2020論文集, pp. 171-178, 2020年12月 [ Paper ] 更新情報 2024-05-01 江戸マップ「れきちず」データセットを公開しました。 2023-10-20 既存の地名を2件修正しました。 2023
- 地図
- 歴史
- データ
- webservice
- map
Fashion-MNIST：ファッション商品（写真）の画像データセット
- 30 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/05/28
データセット「Fashion-MNIST」について説明。7万枚の写真（ファッション商品）の「画像＋ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras／tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。
声優の利益保護へ音声データを認証　AIカバー対策、初の団体設立へ：朝日新聞デジタル
- 30 users
- www.asahi.com
- テクノロジー
- 2024/06/25
","naka5":"","naka6":"","naka6Sp":"","adcreative72":"\n\n\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"
- 人工知能
- あとで読む
- ai
- IT
米Google、自然言語でAndroidデバイスを操作するための学習データセット公開
- 30 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/31
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 米Google Researchと米Google DeepMindに所属する研究者らが発表した論文「Android in the Wild: A Large-Scale Dataset for Android Device Control」は、Androidデバイスを自然言語で操作するための大規模な学習データセットを提案した研究報告である。このデータセットには、画面やアクションを含むデバイスのインタラクションの人間によるデモンストレーションと、それに対応する自然言語の指示が含まれている。データセットはこちらから入手できる。自然言語コマンド
- android
- google
- ai
- 研究
- あとで読む
- news
KMNIST／Kuzushiji-MNIST：日本古典籍くずし字（手書き文字）データセット
- 29 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/01/27
KMNIST／Kuzushiji-MNIST：日本古典籍くずし字（手書き文字）データセット：AI・機械学習のデータセット辞典データセット「KMNIST」について説明。7万枚の手書き文字（くずし字）の「画像＋ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。データセットをダウンロードできるPythonファイルについても紹介。
- 機械学習
- 文字
- Dataset
- Python
- HotEntry
MetaのAIのトレーニングに使われた書籍データセット「Books3」には村上春樹やスティーブン・キングの著作も含まれている
- 28 users
- gigazine.net
- テクノロジー
- 2023/09/29
Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。 Erotica, Atwood, and 'For Dummies': The Books Behind Meta’s Generative AI - The Atlantic https://www.theatlantic.com/technology/archive/2023/09/books3-ai-training-meta-copyright-infringement-lawsuit/675411/ These 183,000 Books Are Fueling the
画像データをキーワード検索で効率的に収集する方法（Python「icrawler」のBing検索）
- 27 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/10/28
画像データをキーワード検索で効率的に収集する方法（Python「icrawler」のBing検索）：AI・機械学習のデータセット辞典 Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。連載目次機械学習などで画像データを使いたい場合に、既存のオープンデータセットを活用できれば手軽に済む。しかし既存のものが存在しない場合には自分でデータセットを作る必要があるだろう。画像を集める際に活用したいのがWeb検索エンジンではないだろうか。実際にGoogleなどで画像検索を行って1つずつ手動で収集することも不可能ではないが、できればプログラムを使ってある程度は自動化したい。そのようなニーズにマッチするPythonライブラリ「icrawler」があるので、本稿ではその使い方を紹介する。 icr
- Python
- 画像
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
- 27 users
- www.recruit.co.jp
- テクノロジー
- 2020/10/19
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル（本社：東京都千代田区、代表取締役社長：淺野健、以下リクルートライフスタイル）が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。日本語の自然言語処理における課題自然言語処理とは、私たちが日常的に使っている言語（自然言語）をコンピューターに解析させる一連の処理を指し
- nlp
- 日本語
- 研究
- あとで読む
TechCrunch | Startup and Technology News
- 26 users
- jp.techcrunch.com
- テクノロジー
- 2020/07/31
India’s mobile payments regulator is likely to extend the deadline for imposing market share caps on the popular UPI payments rail by one to two years, sources familiar with the…
画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった
- 25 users
- gigazine.net
- テクノロジー
- 2023/04/26
画像生成AI「Stable Diffusion」が使用していることでも知られている、ジェネレーティブAIの学習用データセットを構築する非営利団体が「LAION」です。このLAIONのリーダーを務めるのが、ドイツのハンブルグ市で高校教師として働くクリストフ・シューマン氏です。 A High School Teacher’s Free Image Database Powers AI Unicorns - Bloomberg https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns クリストフ・シューマン氏はウィーン大学でコンピューター科学と物理学を学びながら、ワークショップで6年間にわたって演技を学び、卒業後はハンブルク市で
- 画像生成AI
- 人工知能
- techfeed
- イラスト
- AI
- IT
情報学研究データリポジトリメルカリデータセット
- 25 users
- www.nii.ac.jp
- 暮らし
- 2022/09/01
株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新データ概要フリマ商品データ株式会社メルカリが運営する，スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで，個人を特定する情報や非公開情報は含まれません。具体的なデータの内容は以下の通りです。アプリ上に公開されている商品データ（出品状態，商品名，商品の説明，販売価格，カテゴリ，商品の状態，サイズ，ブランド，送料の負担，発送の方法，発送元の地域，発送にかかる日数，いいね！の数，コメントの数，出品日時，更新日時）各商品ページにて公開されているコメントデータ各商品ページにて公開されている画像データ（対象全商品のサムネイル画像／一週間分のオリジナル画像）提供中のデータは2020年1月～12月の1年間に出品された商品が対象です。（データは随時更新される予定です）商品
- mercari
- dataset
データ共同利用権（仮称）について（案）（宮田教授提出資料）（PDF／170KB）
- 24 users
- www.kantei.go.jp
- テクノロジー
- 2020/11/09
- pdf
- law
- IT
- あとで読む
- 社会
生成AIの学習データに児童虐待画像　米大学研究者が指摘 - 日本経済新聞
- 24 users
- www.nikkei.com
- テクノロジー
- 2023/12/21
米スタンフォード大の研究者は20日、画像生成AI（人工知能）の学習用データセット「LAION（ライオン）5B」が1000件以上の児童の性的虐待画像を含んでいたと発表した。多くの画像生成AIが同データを使って学習しており、不適切な画像を生成する恐れがあると警告している。ライオン5Bはインターネット上の50億枚以上の画像のURL（アドレス）を集約したデータセットだ。報告書を発表したスタンフォード大
- 人工知能
- あとで読む
Hugging FaceのDatasets：自然言語処理のデータセット提供サイト
- 24 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/11/01
英語ではあるが、詳細な説明は要らないだろう。簡単に概説しておくと、右側にはダウンロード数順で人気のデータセットが一覧表示されている。キーワード検索できるだけでなく、左側の［Task Categories］（タスクのカテゴリー：問題種別の大まかな大分類）／［Tasks］（タスク：より具体的な問題種別）／［Languages］（言語）／［Multilinguality］（多言語性）／［Sizes］（データサイズ）／［Licenses］（ライセンス）でフィルタリングできる。機械学習の際に「どのデータセットを使えばよいか」を悩むことはよくあると思うが、このランキング表示は非常に参考になるのではないだろうか。各データセットのページ内容図1のデータセット名（例えばwikitext）をクリックしてページを開くと、図2のように表示される。これも直観的に把握できると思うので、細かな説明は不要だと思
民間の立場から、中野区のオープンデータ推進に取り組んでみた話｜watambo
- 23 users
- note.com/viking
- 政治と経済
- 2020/12/17
こんにちは、@watamboです。本業では人材系企業に所属しており、プライベートは主に子育てと、行政データを整備・活用する「キカク」という会社をやっています。今年の7月頃にこんなツイートをし、その結果多くの人にRTやFavをいただいたことがありました。行政が保有するオープンデータを整備し、使いやすくする会社をやっていて、今は許認可に関するデータを集める取り組みをしています。1都3県については、データベース運用を開始できているのですが、中野区だけデータの提供に180万円ほどかかると言われてしまい、まだデータをもらえていない状況です。 pic.twitter.com/XfSTci1tyM — 渡邊亮輔 (@watambo) July 13, 2020 実はこの件、去年の11月頃に始まったことです・・・。ただ、1年かけて、ようやく解決の糸口が見えてきました。今日はこれまで取り組んだことを
- 行政
- データ
GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
- 23 users
- github.com/BandaiNamcoResearchInc
- テクノロジー
- 2022/04/28
This repository provides motion datasets collected by Bandai Namco Research Inc. Find here for a README in Japanese. There is a long-standing interest in making diverse stylized motions for games and movies that pursue realistic and expressive character animation; however, creating new movements that include all the various styles of expression using existing methods is difficult. Due to this, Mot
- 3d
- オープンデータ
- cg
- github
GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット
- 22 users
- github.com/stockmarkteam
- テクノロジー
- 2020/12/15
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 22 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
- 機械学習
- 自然言語処理
- NLP
- あとで読む
- Dataset
- HotEntry
- 学習
- 勉強
TechCrunch | Startup and Technology News
- 22 users
- jp.techcrunch.com
- 世の中
- 2020/07/21
The Twitter for Android client was “a demo app that Google had created and gave to us,” says Particle co-founder and ex-Twitter employee Sara Beykpour.
新型コロナワクチンの接種状況に関するオープンデータ仕様 / ワクチン接種記録システム（VRS）
- 21 users
- info.vrs.digital.go.jp
- テクノロジー
- 2022/01/25
概要新型コロナワクチンの接種状況を、オープンデータとして一般公開しています。本ドキュメントは、その配信およびデータ構造に関する仕様書です。以下の種類のオープンデータを提供しております。なお、接種実績データは毎日1回更新されていますが、オープンデータの更新タイミングはダッシュボードと同時ではありません。オープンデータ形式説明
- 統計
- 医療
- news
- あとで読む
ZOZO研究所、ZOZOTOWNのファッション推薦データとアルゴリズム研究開発基盤をオープンソースで公開 - 株式会社ZOZO
- 21 users
- corp.zozo.com
- テクノロジー
- 2020/08/18
ニュース ZOZO研究所、ZOZOTOWNのファッション推薦データとアルゴリズム研究開発基盤をオープンソースで公開 ZOZOグループの研究開発組織「ZOZO研究所」は、大規模ファッション推薦データと研究基盤となる「Open Bandit（※1）Data & Pipeline」をオープンソースとして公開しました。現在、米中の少数の大企業によるデータと技術の占有により、外部の企業や技術者が同じ土俵で技術進歩に貢献することが難しいという懸念が強まっています。（※2）この問題に歯止めをかけ、日本企業からの積極的な技術貢献を目指すべく、ZOZOグループが保有する大規模データおよびソフトウェアパイプラインを公開する運びとなりました。今後、日本発のデータ技術のオープンイノベーションを促進するきっかけとなることを目指しています。 Open Bandit Dataは、ZOZOTOWN上での実際の推薦アル
Wiki-40B：高品質に加工された、40以上の言語のWikipediaデータセット
- 21 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2021/01/20
Wiki-40B：高品質に加工された、40以上の言語のWikipediaデータセット：AI・機械学習のデータセット辞典データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。
Free public datasets for COVID-19 | Google Cloud Blog
- 21 users
- cloud.google.com
- テクノロジー
- 2020/03/31
COVID-19 public datasets: supporting organizations in their pandemic responseSee how organizations have used the BigQuery COVID-19 public dataset for research, healthcare, and more. By Johanna Katz • 5-minute read These datasets remove barriers and provide access to critical information quickly and easily, eliminating the need to search for and onboard large data files. Researchers can access the
- google
- data
- covid-19
- あとで読む
Welcome
- 21 users
- www.floridamuseum.ufl.edu
- 学び
- 2024/03/13
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
- database
- データ
- dataset
- アイデア
- 生物
- 科学
表情豊かなキャラクター作成を深層学習で　中国チームが制作システムとデータセット公開
- 20 users
- www.itmedia.co.jp
- テクノロジー
- 2020/05/11
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 iDVX Lab、同済大学、香港科技大学による中国の研究チームが開発した「EmoG」は、ユーザーが手書きでスケッチした人物に対し、「幸せ」や「怒り」など6つの感情表現を自動生成するシステムだ。自動生成の提案に対し、ユーザーは調整を加えて好みの絵に仕上げられる。
- 機械学習
- AI
- HotEntry
- システム
- 人工知能
- 学習
- イラスト
- tech
- これはすごい
Large Movie Review：IMDb映画レビューコメントの「肯定的／否定的」感情分析用データセット
- 20 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/09
Large Movie Review：IMDb映画レビューコメントの「肯定的／否定的」感情分析用データセット：AI・機械学習のデータセット辞典データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト（映画レビューコメント）」＋「ラベル（ポジティブ／ネガティブの感情）」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。
AIモデル評価用データセットに多数の誤り、実は優秀ではなかった？
- 20 users
- www.technologyreview.jp
- テクノロジー
- 2021/04/05
MITの研究者が、人工知能（AI）の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05 272 73 20 23 人工知能（AI）の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学（MIT）の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知
- 機械学習
- HotEntry
- 人工知能
- AI
- news
- あとで読む
A Review of Public Japanese Training Sets
- 20 users
- github.com/AUGMXNT
- テクノロジー
- 2023/12/11
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- LLM
- ai
- NLP
- あとで読む
- github
トップページ | 内閣感染症危機管理統括庁ホームページ
- 20 users
- www.caicm.go.jp
- 学び
- 2020/04/24
令和6年1月12日、シンポジウム「新たな感染症危機にいかに備えるか～国民の生命・健康と生活・経済の両立を目指して～」を開催しました。
AI・機械学習のデータセット辞典
- 19 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/01/22
データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク（CoLA／SST-2／MRPC／STS-B／QQP／MNLI／QNLI／RTE／WNLI）に対応するデータセットのコレクション。
- 機械学習
- dataset
- ai
- web