データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク(CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)に対応するデータセットのコレクション。
日本の政府系のオープンデータで一番有名なのが「e-Stat」である。統計学やデータサイエンスに携わるもの/学ぶものであれば、名前は聞いたことがあるだろう。かつては各省庁がバラバラに管理&公開していた公的データを、一カ所に集めて誰でも簡単に利用できるようにしたサイトである(2008年から運用が開始され、2018年にリニューアルされた)。 統計分野は多岐にわたり、「国土・気象」「人口・世帯」「労働・賃金」「農林水産業」「鉱工業」「商業・サービス業」「企業・家計・経済」「住宅・土地・建設」「エネルギー・水」「運輸・観光」「情報通信・科学技術」「教育・文化・スポーツ・生活」「行財政」「司法・安全・環境」「社会保障・衛生」「国際」「その他」という17分野が提供されている。データセットは、条件指定によるフィルタリングやグラフ化が行える。例えば人口ピラミッドのグラフも簡単に作成できる。 また、もちろん無
PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧:AI・機械学習のデータセット辞典 機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。 連載目次 本連載「AI・機械学習のデータセット辞典」では、ここまで主に、scikit-learnやKeras/TensorFlow(tf.keras)、TensorFlow Datasets、PyTorchといった主要なPythonライブラリに共通的に含まれる代表的なデータセットを紹介し、各ライブラリでの典型的な実装コード例を示してきた。しかし、これらの全ライブラリに共通的に含まれているデータセットはまれで非常に少ない。よってこれからは、個々のライブラリに1つしか含まれていないようなこまごまと
最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く