数字データ セットは、10,000 個の手書き数字の合成グレースケール イメージで構成されています。各イメージは 28 x 28 ピクセルで、イメージが表す数字 (0 ~ 9) を示すラベルが関連付けられています。各イメージには特定な角度の回転が付けられています。イメージを配列として読み込むと、そのイメージの回転角度も読み込まれます。 関数 digitTrain4DArrayData と digitTest4DArrayData を使用して、インメモリ数値配列として数字データを読み込みます。 [XTrain,YTrain,anglesTrain] = digitTrain4DArrayData; [XTest,YTest,anglesTest] = digitTest4DArrayData;
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? マシンビジョン分野で、個人的に使ってみたい気になったデータセットをまとめました。実際に業務で使用する場合は各データセットのライセンス条項をよく確認してください。 英語で検索する場合は、datasets open data image processing machine learning 等で検索するといいと思います。 検索で引っかかったマイナーなものを重点的に調べました。 ImageNet 2009年のCVPRにてプリンストン大学のチームが公開したのがきっかけで発展した、1400万枚超の画像と意味を示すタグのデータセットです。100万
あけましておめでとうございます。← 2020も頑張りましょう。 今回は表題の通り、画像系深層学習の判断根拠手法について、近年人気のある手法「Grad-CAM」と、その改良版「Grad-CAM++」、さらに去年論文発表されたばかりの「Score-CAM」を、TensorFlow/Kerasで実装・比較してみます。 データセットはKaggleのデータセットを使い、カーネルノートブックのGPUを使って深層学習させましたので、全コードはそちらを参照ください。 kaggle notebook: https://www.kaggle.com/itoeiji/visual-explanations-gradcam-gradcam-scorecam 一応ノートブックをアウトプットしてGitにも同じものをあげています。 GitHub: https://github.com/Gin04gh/datascien
技術ブログ 2019.06.13 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) 今回は自然言語解析をfastTextを使って実施してみます。 fastTextはfacebookが公開している自然言語処理用のライブラリで、単語のベクトル化と文章分類を実施します。 ソースコードはこちらになります。 https://github.com/facebookresearch/fastText fastTextの利用方法は二つあり、「単語表現学習(Word representation learning)」と「文章分類(Text classification)」です。 単語表現学習(Word representation learning)では、単語をひたすら学習させて、似ている単語などを抽出します。 この単語に近いものや、
櫛井です。 以前 livedoor clip のデータを学術研究用に公開しましたが,おかげさまで,たまに発表等で livedoor clip という名前が引用されているのを見かけるようにもなり感慨深い限りです。 さて,今回は第二弾としまして,livedoor グルメのデータをまとめてダウンロード & 利用可能にしようと思います。 今回はいろいろと余裕がなかったため 豪華なイラスト付きページが用意できませんでした livedoor clip のデータとは違い,定期アップデートはされません。2011年4月22日の時点のデータのみとなります ...が,なにかしら皆様の研究のお役に立てればと思います。 よくありそうな質問と答え ライブドアグルメのユーザですが,自分の個人情報が公開されちゃうってこと?困ります! 公開されるのは,もともとライブドアグルメのサイトで誰でも見れるようになっている情報だけで
LIBSVM Data: Classification (Multi-class) This page contains many classification, regression, multi-label and string data sets stored in LIBSVM format. For some sets raw materials (e.g., original texts) are also available. These data sets are from UCI, Statlog, StatLib and other collections. We thank their efforts. For most sets, we linearly scale each attribute to [-1,1] or [0,1]. The testing dat
ツイートの評判情報をクラウドソーシングにより分析し,分析結果を公開しています. データのダウンロードデータはこちらです. データはbz2で圧縮されています. ツイートの本文は含まれていません. 2015年から2016年ごろのツイートを対象にしています. データ内容携帯電話などのツイートを中心に,534,962件のツイートがの分析が行われています.このツイート量は,他のデータセットと比較しても多いです.作成者の知る限り最も規模が大きく,種類数の大きなデータセットです. 最低 4 名以上の作業者により評価を行い,多数決を行った結果です.だいたい5名以上の作業者により評価を行っています. データの構造CSV ファイルで記述しています.列番号は以下の内容に該当します. ツイートのIDです.10000から始まる番号です.ジャンルIDです.次のジャンルがあります.10000: エクスペリア,Xperi
無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い
Wikimedia Downloads: Analytics Datasets Data compiled by community and staff, from projects hosted by the Wikimedia Foundation. Pageviews: statistics compiled using the current Pageview Definition. Available as: Pageview complete: Our best effort to provide a comprehensive timeseries of per-article pageview data for Wikimedia projects. Data spans from December 2007 to the present with a uniform fo
最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを
Safeguard VM, server, NAS, K8, and workstation data
Machine learning can be applied to time series datasets. These are problems where a numeric or categorical value must be predicted, but the rows of data are ordered by time. A problem when getting started in time series forecasting with machine learning is finding good quality standard datasets on which to practice. In this post, you will discover 8 standard time series datasets that you can use t
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く