令和6年1月12日、シンポジウム「新たな感染症危機にいかに備えるか~国民の生命・健康と生活・経済の両立を目指して~」を開催しました。
連載目次 データセット解説 ImageNetは、1400万枚以上もあるほど大規模な、「カラー写真」の教師ラベル付き画像データベースである。その教師ラベルは、WordNet階層*1に基づいて付与されている。スタンフォード大学のフェイフェイ・リ(Fei-Fei Li)氏を中心とした研究グループが管理しており、世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開されている。 *1 WordNetとは、英語の語彙(ごい)データベースであり、synsetと呼ばれる「同義語(synonyms)セット」がツリー階層構造でグループを形成しながら定義されているのが特徴である。ImageNetでは2万以上のsynsetが採用されている。 ImageNetの歴史的な重要性 ImageNetは、歴史的に非常に有名である。2012年に開催されたImageNetの大規模画像認識コンペ「ILSVRC(Im
そもそも画像認識の元となる学習データは正しいのか?先日オンラインで開催された「画像の認識・理解シンポジウム MIRU2020」で発表されたセッション「大規模画像データセットが含む“疑わしい画像”の専門家のワークショップを通した収集と分析」が大変話題になりました。 MIRU 2020 プログラム一覧 これは人工知能を活用した画像解析の学習データとして一般的に使われている ImageNet という巨大データセットの正確性を疑うものです。近年「Are we done with ImageNet?」という2020年の論文から ImageNet の正確性への疑問が注目されました。 論文「Are we done with ImageNet?」は 、2009年頃から画像認識の大規模データセットとして使われてきた ImageNet の正確性、評価に疑いをもって調べ、またその正当性をあげるための提言を述べた
大阪市立東洋陶磁美術館収蔵品画像オープンデータ 「大阪市立東洋陶磁美術館収蔵品画像オープンデータ」で公開している画像は、当館への申請が必要なく、自由にダウンロード、複製、再配布することができます。例えば出版物やウェブサイトへの掲載、講演会等でのスクリーンへの投影、テレビ番組での放送、販売商品への印刷など、営利・非営利に関わらず利用が可能です。
こんちは。DA事業本部@大阪オフィスの玉井です。 みなさん、ついにスーパー玉出(の一部店舗)がPayPayでの支払いに対応しました。というわけで、以前作成したスーパー玉出ダッシュボードに「PayPayが使えるかどうか」のフラグデータを追加したので、その作業経緯をここに記します。 スーパー玉出ダッシュボードについて スーパー玉出のPayPay対応について きっかけは弊社大阪オフィスのSlackチャネル。 なぜ玉出の情報が会社のSlackで共有されるのかはよくわかりませんが、そのニュースを見た私は2秒で玉出のHPにアクセスしました。そして店舗情報を見ると… 対応してた。 しかし、まだ対応しているのは一部の店舗のみ。これは対応している店舗としていない店舗がひと目でわかるように、以前作成したスーパー玉出ダッシュボードにデータを追加しないと大変なことになるのは火を見るより明らかでした。 PayPay
図1 EMNIST ByClassに含まれる「手書き文字」の例 ※データセットの配布元: 「The EMNIST Dataset | NIST」。 ※出典: EMNIST: an extension of MNIST to handwritten letters. Han Xiao, Cohen, G., Afshar, S., Tapson, J., & van Schaik, A. arXiv:1702.05373 EMNISTは、MNISTの拡張版(an Extension of MNIST to handwritten letters)として、NIST Special Database 19から抽出&加工して作られたサブセットである。主に画像認識を目的としたディープラーニング/機械学習の研究や初心者向けチュートリアルで使われることが意識されている。そのため、MNISTは「0」~「9
連載目次 データセット解説 ARC浮世絵顔データセット(以下、浮世絵顔)は、浮世絵の「顔」画像データセットである(図1)。このデータセットには、浮世絵に関する作品名/役者/版元/絵師/上演年などの書誌情報といったメタデータと、目/口/鼻などの顔パーツと顔領域の座標データ(=機械学習で自動抽出した結果)といったアノテーションデータが含まれる。 図1 浮世絵顔データセットの例(引用) この画像はGitHubリポジトリの公式データセットに含まれるサンプル画像から引用したものである。 立命館大学アート・リサーチセンター (2020): ARC所蔵浮世絵データベース. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/rdata.2.1 浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構
日本語の記事だけでも130万件以上、全言語を総合計すると5870万件以上にもなるオンライン百科事典「Wikipedia」の記事をすべてダウンロードし、オフラインで手軽に閲覧・検索する方法をブロガーのポール・ウィリアム氏が解説しました。 How To Download All of Wikipedia onto a USB Flash Drive in 2022 https://planetofthepaul.com/wikipedia-download-usb-flash/ Wikipediaはさまざまな原則の下で記事のダウンロードを許可しており、Wikipediaはダウンロードに際してはデータベースのダンプ方式を用いるよう呼びかけています。 Wikipediaの全記事のファイルサイズは英語版で95GB、日本語版でも20GBはあるため、これより大きなサイズのドライブを用意しておきます。US
ここに来て、東京都がオープンデータの取り組みでネットを驚かせています。(写真:GYRO PHOTOGRAPHY/アフロイメージマート) 先週公開された東京都の新型コロナウイルス感染症対策サイトが、ネットで大きな注目を集めています。 参考:東京都の新型コロナ対策サイト、GitHubでコード公開 修正提案受け付け このサイトが公開されたのは、一週間前の3月4日水曜日のこと。 自治体が開設したサイトとは思えない見やすいデザインに加え、GitHubというソフトウェア開発のプラットフォーム上でソースコードを公開して、誰でも自由に利用することができると宣言したことが、大きな話題を呼びました。 しかも千週末の8日には、台湾の天才IT大臣とも呼ばれているオードリー氏が、このソースの一部を自ら修正したことが発見され、さらなる注目を集める結果に。 参考:東京都のコロナ対策サイト、台湾の“天才IT大臣”も改善に
There’s currently an ongoing debate about the value of data and whether internet companies should do more to share their data with others. At Google we’ve long believed that open data and open source are good not only for us and our industry, but also benefit the world at large. Our commitment to open source and open data has led us to share datasets, services and software with everyone. For examp
このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結
2024年4月16日、研究を実施・助成・評価する機関や研究情報のインフラを提供する機関の関係者らのグループによって、研究情報のオープン化を目指すバルセロナ宣言(“Barcelona Declaration on Open Research Information”)が発出されました。 書誌データや助成情報といった研究に関するメタデータのオープン化を標準とすることや、それを可能にするサービスやシステムをサポートすることなど四つの原則を掲げています。支援機関としてはCrossref、DataCite、学術文献データベースOpenAlexを運営する非営利団体OurResearchなどが名を連ねています。 この宣言に対しては、研究助成機関のコンソーシアムであるcOAlition S が同日に歓迎を表明しています。表明では、cOAlition Sが長年に渡ってメタデータのオープン化を掲げていたことに
米OpenAIは11月9日(現地時間)、AIモデルをトレーニングするためのパブリックおよびプライベートのデータセットを構築するためにサードパーティと協力するパートナーシップ「OpenAI Data Partnerships」の立ち上げを発表した。 同社は公式ブログで、このパートナーシップの目的は「より多くの組織がAIの将来の舵取りを支援できるようにし」「より有用なモデルから恩恵を受けられるようにすること」と語った。 「最終的に全人類にとって安全で有益なAGIを実現するには、AIモデルがすべてのテーマ、業界、文化、言語を深く理解」する必要があり、そのために可能な限り広範なトレーニングデータセットが必要だとしている。 データには、画像、音声、動画などを含める予定で、多様な言語、トピック、形式での長文のテキストや会話など、「人間の意図を表現する」データも含める計画。 パートナーシップ参加組織と協
オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 「【事例付き】ビッグデータ時代に持つべき”データ活用に必要な視点”とは」にて、オープンデータの今とこれからをオープンデータ伝道師の福野さんにインタビューした内容を掲載しました。 本記事では、オープンデータについてさらに調査を進め、どのような活用事例があるのか、また、世の中にどのようなオープンデータがあるのかをまとめました。 無料のオープンデータがビジネスをアップデートする、その面白さをご紹介できればと思います。 (1)オープンデータとは まず、本題に入る前にオープンデータとは何かという定義から紹介します。 「OPEN DATA HANDBOOK」を見ると、オープンデータとは、「自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのこと」とあります。また、オープンデータとして「
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b
口コミのジャンルは「引越し」「保険」「旅行」「美容」「資格」など暮らしに密接したものを用意。NIIは「肯定的・否定的コメントのいずれも、具体性や根拠をもった口コミを収載していることを特徴としている」とし、自然言語処理分野などでの利用を想定する他、主観的な評価スコアと組み合わせた分析も可能としている。 NIIでは2015年4月にデータセット共同利用研究開発センターを設置。データサイエンス研究のため、さまざまな民間企業や研究機関が持つ各種データセットを受け入れ、研究者に提供する「情報学研究データリポジトリ」事業に取り組んできたという。今回の取り組みもその一環に当たる。 関連記事 「ディープフェイク」を見破るプログラム、NIIが開発 圧縮された映像でも一定の信頼性 国立情報学研究所が、ディープフェイクを見破るプログラムを開発した。WebAPIとして提供するため、同プログラムを組み込んだWebサー
Laboro.AIは7月15日、同社のエンジニアコラムにてトマト画像物体検出データセット「Laboro Tomato」を公開した。 Laboro Tomatoは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)のもと、非商用目的に限り無料で公開している。なお、商用目的での利用の際は、Laboro.AIの問い合わせフォームより連絡が必要だ(外部サイト)。 >> Laboro.AI >> Laboro.AI エンジニアコラム 合計804枚の画像データ 成熟、半熟、緑熟に応じたアノテーションLaboro Tomatoは、物体検出技術のなかでも精緻な検出を実現するインスタンスセグメンテーションでの利用を想定して開発された。インスタンスセグメンテーションとは、画像をピクセル単位で分
米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル
連載目次 データセット解説 Boston Housingデータセット(The Boston house-price data)(ボストンの住宅価格データ)は、「1970年代後半における(米国マサチューセッツ州にある)ボストンの住宅価格」の表形式データセット(=構造化データセット)である(図1、米国国勢調査局が収集した情報から抽出&加工して作成されたデータセットである)。 Boston Housingは、主に回帰(数値予測、つまり「住宅価格の予測」)を目的としたディープラーニング/機械学習/統計学の研究や初心者向けチュートリアルで使われている(※ただし、ディープラーニングを行うにはデータ数が506件と少なすぎる点に注意が必要だ)。 Boston Housingは、13属性(説明変数、入力データ)+1属性(目的変数、ラベル=正解を示す教師データ)の14属性で構成されている。各属性(列項目)の意
AI Labの大田(@ciela)です。近頃はリサーチエンジニアとして研究成果を最大化するためのエンジニアリングに責任を持って日々活動しています。昨年もPyTorchに関する記事を書かせていただきましたが、今回もPyTorch、特にPyTorchでの学習データセットの取り扱いについてのお話になります。これまで部署内のプロダクトと関わる上でTensorFlowに浮気することも何度かありましたが、PyTorchに対する感覚を鈍らせたくはなく、今後もPyTorch関連の話題には頑張ってキャッチアップしていく所存です。 深層学習データセット取扱の課題 昨今の深層学習に用いられるデータセット内のデータ数は一般的に大規模です。実際に学習する上ではデータセットをシャッフルしつつ繰り返しロードし、場合によっては適切な前処理やData Augmentationだってしなくてはなりません。それらの処理を並列化
Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Estimation based on Writer’s Personality. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: Student Research Workshop (AACL-SRW 2022), pp.1-
この記事は CAMPHOR- Advent Calendar 2019 21日目の記事です。 半年くらい前になりますが、Civic Tech Forumというシビックテックのイベントで登壇しました。 話した内容は ・派遣会社の情報を厚生労働省に情報公開請求したことがキッカケで、行政や自治体が保有している色んな情報の在り処を調べるようになった ・実際に情報公開請求すると、自治体によってデータの項目がバラバラだったり、ファイル形式もバラバラ ・エリアをまたいで欲しい情報をみんなが得られるようにするために、データ項目とファイル形式を揃えて一覧で見られるようにしたい(下図) というもの。 このときに話した構想を形にするべく、半年間かけて試行錯誤してきました。今日はこの半年間で取り組んだことを書こうと思います。 (文章が多少雑多な感じになってます、ご容赦を🙏) 目次・2019年に取り組んだこと ・
スローニュースでは、プロジェクト「オープンデータウオッチ」を始めます。国や自治体がオープンにしているデータをもとに、税金の使われ方や事業が適正に行われているのかなどをチェックしていきますよ。まず最初に取り上げるのは、東京都の補助金です。 東京都の補助金は年間1兆8000億円の巨額東京都がいろんなところに渡している「補助金」って年間1兆8000億円(令和4年度予算ベース)にも上る巨額だとご存じでした?もちろん、私たちの税金が原資です。都民じゃないから関係ない?いやいや、これ国の予算が東京都を通して払われているものもかなり含まれているので、元をたどれば全国の人が関係してますよ。他人事じゃないんです。 東京都の「補助金サーチ」よりだからこそ、使い道をはっきりさせてほしいんですよね。ところが、全然わからないんです。これ、東京都にふつうに聞くと、「支出先は公開しています」って答えるんですよね。でも、
公的機関では新型コロナウイルスに関する二次利用が可能なデジタルデータ(オープンデータ)を提供していることがあります。 このページでは、新型コロナウイルスに関する公的機関のオープンデータおよびオープンデータの利活用事例を探せるウェブサイトのうち、主要なものを取り上げて紹介します。利用条件は、各ウェブサイトをご覧ください。 1. 世界OECD Open data in action: initiatives during the initial stage of the COVID-19 pandemic 新型コロナウイルスに関するオープンデータの利活用事例集です。 OPSI COVID-19 Innovative Response Tracker/Open Dataは、利活用事例を視覚的に展望することができます。米国 共通役務庁 DATA.GOV キーワードでデータセットを検索することができ
新型コロナウイルス感染症対策推進室(内閣官房)にて、先日公開された「全国医療機関の医療提供体制の状況」のデータを地図にプロットしてみました。 政府CIOポータルの方でも地図にプロットされた状態で公開されているのですが、少し動作が重くて見づらかったのと、 Deck.gl + Material-UI の練習がてら作ってみました。 アプリの説明 データ量(約2MB)が多いため、初回アクセス時は表示されるまでに結構時間がかかります。 スマホでも見れますが、データ量が多いのと操作しづらいのでできればPCで見てください。 * PC(モダンブラウザ)推奨 医療提供体制の状況マップ サークル表示 全ての医療区分データをポイントとして表示しています。遠目でも見やすいようにちょっと大きめに表示しています。 データは一病院ごとではなく、医療区分(外来や救急など)ごとになっているので、同じ病院では同じ位置に重なっ
近年は人工知能(AI)が差別や偏見を行う可能性が危険視されており、「人工知能アルゴリズムを用いた画像生成が差別を行っている」とFacebookの人工知能部門におけるチーフ研究者が多くの非難や攻撃を受け、Twitterアカウントを停止する事態にもなっています。ニューラルネットワークを訓練する過程ではデータセットが用いられますが、このデータセットが差別の原因となっているとして、10年以上使われてきた大規模なデータセットが研究者自身の手によって削除されました。 80 Million Tiny Images https://groups.csail.mit.edu/vision/TinyImages/ MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogy
NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry. High-quality training data plays a critical role in the performance, accuracy and quality of responses from a custom LLM — but robust datas
逧�縺輔∪縺ァ閾ェ逕ア縺ォ豢サ逕ィ縺励※縺�縺溘□縺阪◆縺�縲ゅ→縺�縺�諤昴>縺九i 髟キ蟠守恁縺御サ翫∪縺ァ縺ョ讌ュ蜍吶〒蜿門セ励@縺滓�先棡蜩√r 繧ッ繝ェ繧ィ繧、繝�繧」繝悶�サ繧ウ繝「繝ウ繧コ繝サ繝ゥ繧、繧サ繝ウ繧ケ縺ョ 繧ェ繝シ繝励Φ繝�繝シ繧ソ縺ォ縺励∪縺励◆縲� 蝟カ蛻ゥ繝サ髱槫霧蛻ゥ蝠上o縺壹#蛻ゥ逕ィ蜿ッ閭ス縺ァ縺吶��
浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。 ARC浮世絵顔データセット ARC浮世絵顔データセットは、機械学習を用いて浮世絵から顔領域を自動抽出し作成した、顔に関するデータセットです。立命館大学アート・リサーチセンター(ARC)が国立情報学研究所の情報学研究データリポジトリ(IDR)で公開する「立命館ARC所蔵浮世絵データベース」を対象に、共同研究グループがデータセットを作成しました。以下のGitHubリポジトリ(英語)では、顔のデータセットに加え、画像などのデータをダウンロードし分析するためのスクリプトもあわせて提供します。 GitHub: rois-codh/arc-ukiyoe-faces: ARC Ukiyo-e Faces Dataset 図:データセット中で浮世絵の画像が最も多い10人の作者 2021年6月現在、
HOME活動OPEN EATS JAPAN OPEN EATS JAPAN飲食店情報をもっとオープンに!「OPEN EATS JAPAN」は飲食店情報をオープン化して広く社会で共有するためのプロジェクトです。 2020年の春頃から、新型コロナウイルスの感染拡大を防ぐために多くの飲食店が休業を余儀なくされた状況を受け、各地では飲食店を支援するためにテイクアウトやデリバリーが可能な飲食店情報を収集して公開する多くのプロジェクトが立ち上がりました。 このような取り組みを一過性のものに終わらせず、今後も地域で協力して飲食店情報の発信を進めるために、各地で収集された飲食店データを広く様々なアプリやサービスで利用可能にするための標準フォーマットを検討するプロジェクトを有志で立ち上げました。 ドキュメント&リソース飲食店情報オープンデータ項目定義書飲食店情報をオープンデータとして公開する際の標準的なフォ
I. はじめに 日本のメッシュ統計マップといえば、標準地域メッシュを用いた四角形のメッシュによるものが一般的です。それに対し、近年は六角形のメッシュ「Hexagonal Grid」を用いた地図が見られるようになりました(※1)。 六角形のメッシュ自体は昔からあるものです。しかし、六角形メッシュを手軽に作れる機能がGISに実装されていなかったため、これまではほとんど活用されてきませんでした。 2010年代以降、統計解析の分野では、扱うデータ数の増大によりデータの分布を散布図で表現しても点が重なったりグラフ内を埋め尽くしたりして分布傾向が分からないため、ヒートマップ(密度プロット)やヘキサゴナルビニング(hexbin)といった集約処理を用いて表すことが多くなりました。 六角形メッシュを使って主題図を描こうという文化は、このデータサイエンス分野からGISに輸入され普及した感じがします(※2)。
IBMは米国時間2021年5月11日、55種類以上の開発言語で利用可能な約1,400万のサンプルコードを通じて、AI(人工知能)の学習を推進する大規模なデータセット「Project CodeNet」をGitHubで公開したことを公式ブログで明らかにした。対応する開発言語はC++、C、Python、Javaが主要ながらも、COBOLやPascal、FORTRANといったレガシーな開発言語もサポートする。 GitHub上のProject CodeNetページ 開発者はサンプルコードからメタデータを抽出し、AI手法の調査や追跡、コード修正などに利用可能。IBMは「豊富なプログラムが多数の言語で記述されているが、Project CodeNetはソース間翻訳のベンチマークデータセットとして機能する。(視覚データを認識するための大規模データセットである)ImageNetが(2/3次元画像処理などを自動
この度、「誰でも使える統計オープンデータ」の開講に先立ち、実践編となる『社会人のためのデータサイエンス演習』を特別開講しております。 公的統計の基本的な知識と実践的な使い方を学んだあと、実践編の『社会人のためのデータサイエンス演習』と併せて学習していただくことで、より活用の幅が広がるかと思います。この機会に、ぜひご受講ください。 ※「《特別開講》社会人のためのデータサイエンス演習」は、修了証の発行はございません。 >>演習編はこちら<< 講座内容 オープンデータである統計データを活用したデータサイエンスをわかりやすく解説します。 今、様々な意思決定の場で、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、e-Stat(政府統計の総合窓口)、統計GIS(jSTAT
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く