アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト:AI・機械学習のデータセット辞典 「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。
We help companies test and improve machine learning models via our global AI Community of 1 million+ annotators and linguists. Our proprietary Ground Truth AI training platform handles all data types across 500+ languages and dialects. Our AI Data Solutions vastly enhance AI systems across a range of applications from advanced smart products, to better search results, to expanded speech recognitio
はじめに 人工知能を開発することで、一番大事なのは、素晴らしい機械学習モデルや計算力の高いマシンより、データセットだと思われることがある。機械学習ブームに火をつけたコンピュータビジョンという分野はCOCOやPascalようなCC(Creative Commons)ライセンスに対応しているデータセットがあふれているのに、音声認識になると、特に日本語の場合、無料に使えるデータセットはかなり少ない。 実際、知っているかぎりでは、無料ですぐに利用できるような音声認識モデルの開発といった目標で作られているデータセットは、最近Mozillaが公開したCommon Voiceしかない。そのデータセットは、まだ3時間程と、まだ少ない。 音声認識モデルを開発するためには、二つのものが必要となる: 人間の発話の録音 その発話の書き起こし そういう情報を手に入れるためには、録音された発話の内容を厳密に書く人がい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く