並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 226件

新着順 人気順

オープンデータの検索結果121 - 160 件 / 226件

  • トップページ | 内閣感染症危機管理統括庁ホームページ

    令和6年1月12日、シンポジウム「新たな感染症危機にいかに備えるか~国民の生命・健康と生活・経済の両立を目指して~」を開催しました。

      トップページ | 内閣感染症危機管理統括庁ホームページ
    • AI・機械学習のデータセット辞典

      データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク(CoLA/SST-2/MRPC/STS-B/QQP/MNLI/QNLI/RTE/WNLI)に対応するデータセットのコレクション。

        AI・機械学習のデータセット辞典
      • ImageNet:大規模なカラー写真の画像データベース

        連載目次 データセット解説 ImageNetは、1400万枚以上もあるほど大規模な、「カラー写真」の教師ラベル付き画像データベースである。その教師ラベルは、WordNet階層*1に基づいて付与されている。スタンフォード大学のフェイフェイ・リ(Fei-Fei Li)氏を中心とした研究グループが管理しており、世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開されている。 *1 WordNetとは、英語の語彙(ごい)データベースであり、synsetと呼ばれる「同義語(synonyms)セット」がツリー階層構造でグループを形成しながら定義されているのが特徴である。ImageNetでは2万以上のsynsetが採用されている。 ImageNetの歴史的な重要性 ImageNetは、歴史的に非常に有名である。2012年に開催されたImageNetの大規模画像認識コンペ「ILSVRC(Im

          ImageNet:大規模なカラー写真の画像データベース
        • CGへの扉 Vol.17:描画を進化させるTensorFlow Graphicsの真価 | モリカトロンAIラボ

          そもそも画像認識の元となる学習データは正しいのか?先日オンラインで開催された「画像の認識・理解シンポジウム MIRU2020」で発表されたセッション「大規模画像データセットが含む“疑わしい画像”の専門家のワークショップを通した収集と分析」が大変話題になりました。 MIRU 2020 プログラム一覧 これは人工知能を活用した画像解析の学習データとして一般的に使われている ImageNet という巨大データセットの正確性を疑うものです。近年「Are we done with ImageNet?」という2020年の論文から ImageNet の正確性への疑問が注目されました。 論文「Are we done with ImageNet?」は 、2009年頃から画像認識の大規模データセットとして使われてきた ImageNet の正確性、評価に疑いをもって調べ、またその正当性をあげるための提言を述べた

            CGへの扉 Vol.17:描画を進化させるTensorFlow Graphicsの真価 | モリカトロンAIラボ
          • 大阪市立東洋陶磁美術館収蔵品画像オープンデータ

            大阪市立東洋陶磁美術館収蔵品画像オープンデータ 「大阪市立東洋陶磁美術館収蔵品画像オープンデータ」で公開している画像は、当館への申請が必要なく、自由にダウンロード、複製、再配布することができます。例えば出版物やウェブサイトへの掲載、講演会等でのスクリーンへの投影、テレビ番組での放送、販売商品への印刷など、営利・非営利に関わらず利用が可能です。

            • 【祝】スーパー玉出がPayPayに対応したのでスーパー玉出ダッシュボードを改修しました #Alteryx #Tableau | DevelopersIO

              こんちは。DA事業本部@大阪オフィスの玉井です。 みなさん、ついにスーパー玉出(の一部店舗)がPayPayでの支払いに対応しました。というわけで、以前作成したスーパー玉出ダッシュボードに「PayPayが使えるかどうか」のフラグデータを追加したので、その作業経緯をここに記します。 スーパー玉出ダッシュボードについて スーパー玉出のPayPay対応について きっかけは弊社大阪オフィスのSlackチャネル。 なぜ玉出の情報が会社のSlackで共有されるのかはよくわかりませんが、そのニュースを見た私は2秒で玉出のHPにアクセスしました。そして店舗情報を見ると… 対応してた。 しかし、まだ対応しているのは一部の店舗のみ。これは対応している店舗としていない店舗がひと目でわかるように、以前作成したスーパー玉出ダッシュボードにデータを追加しないと大変なことになるのは火を見るより明らかでした。 PayPay

                【祝】スーパー玉出がPayPayに対応したのでスーパー玉出ダッシュボードを改修しました #Alteryx #Tableau | DevelopersIO
              • Amazon、Meta、Microsoft、TomTomらが保有するデータを統合して地図データを整備――「Overture Maps」とは何か?【地図と位置情報】

                  Amazon、Meta、Microsoft、TomTomらが保有するデータを統合して地図データを整備――「Overture Maps」とは何か?【地図と位置情報】
                • EMNIST:手書きアルファベット&数字の画像データセット

                  図1 EMNIST ByClassに含まれる「手書き文字」の例 ※データセットの配布元: 「The EMNIST Dataset | NIST」。 ※出典: EMNIST: an extension of MNIST to handwritten letters. Han Xiao, Cohen, G., Afshar, S., Tapson, J., & van Schaik, A. arXiv:1702.05373 EMNISTは、MNISTの拡張版(an Extension of MNIST to handwritten letters)として、NIST Special Database 19から抽出&加工して作られたサブセットである。主に画像認識を目的としたディープラーニング/機械学習の研究や初心者向けチュートリアルで使われることが意識されている。そのため、MNISTは「0」~「9

                    EMNIST:手書きアルファベット&数字の画像データセット
                  • 浮世絵顔データセット

                    連載目次 データセット解説 ARC浮世絵顔データセット(以下、浮世絵顔)は、浮世絵の「顔」画像データセットである(図1)。このデータセットには、浮世絵に関する作品名/役者/版元/絵師/上演年などの書誌情報といったメタデータと、目/口/鼻などの顔パーツと顔領域の座標データ(=機械学習で自動抽出した結果)といったアノテーションデータが含まれる。 図1 浮世絵顔データセットの例(引用) この画像はGitHubリポジトリの公式データセットに含まれるサンプル画像から引用したものである。 立命館大学アート・リサーチセンター (2020): ARC所蔵浮世絵データベース. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/rdata.2.1 浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構

                      浮世絵顔データセット
                    • PLATEAU VIEW App | 3D都市モデルをWEBで体感する | PLATEAU [プラトー]

                      PLATEAU VIEW は、PLATEAU のデータをプレビューできる、ブラウザベースのWebアプリケーションです。 デジタル空間上に再現された都市をあらゆる角度から観察でき、空間上に情報のレイヤーを自由に重ねることで、これまでのデータでは気づき得なかった新たな視点に出会えることでしょう。

                        PLATEAU VIEW App | 3D都市モデルをWEBで体感する | PLATEAU [プラトー]
                      • Wikipediaの記事をすべてダウンロードしていつでもオフラインで閲覧&検索する方法

                        日本語の記事だけでも130万件以上、全言語を総合計すると5870万件以上にもなるオンライン百科事典「Wikipedia」の記事をすべてダウンロードし、オフラインで手軽に閲覧・検索する方法をブロガーのポール・ウィリアム氏が解説しました。 How To Download All of Wikipedia onto a USB Flash Drive in 2022 https://planetofthepaul.com/wikipedia-download-usb-flash/ Wikipediaはさまざまな原則の下で記事のダウンロードを許可しており、Wikipediaはダウンロードに際してはデータベースのダンプ方式を用いるよう呼びかけています。 Wikipediaの全記事のファイルサイズは英語版で95GB、日本語版でも20GBはあるため、これより大きなサイズのドライブを用意しておきます。US

                          Wikipediaの記事をすべてダウンロードしていつでもオフラインで閲覧&検索する方法
                        • 東京都のコロナ対策サイトに学ぶ、オープンデータな情報開示のあるべき姿(徳力基彦) - エキスパート - Yahoo!ニュース

                          ここに来て、東京都がオープンデータの取り組みでネットを驚かせています。(写真:GYRO PHOTOGRAPHY/アフロイメージマート) 先週公開された東京都の新型コロナウイルス感染症対策サイトが、ネットで大きな注目を集めています。 参考:東京都の新型コロナ対策サイト、GitHubでコード公開 修正提案受け付け このサイトが公開されたのは、一週間前の3月4日水曜日のこと。 自治体が開設したサイトとは思えない見やすいデザインに加え、GitHubというソフトウェア開発のプラットフォーム上でソースコードを公開して、誰でも自由に利用することができると宣言したことが、大きな話題を呼びました。 しかも千週末の8日には、台湾の天才IT大臣とも呼ばれているオードリー氏が、このソースの一部を自ら修正したことが発見され、さらなる注目を集める結果に。 参考:東京都のコロナ対策サイト、台湾の“天才IT大臣”も改善に

                            東京都のコロナ対策サイトに学ぶ、オープンデータな情報開示のあるべき姿(徳力基彦) - エキスパート - Yahoo!ニュース
                          • 都市のデジタルツインをWebブラウザで体感!東京都デジタルツイン実現プロジェクト

                            このウェブサイトではサイトの利便性の向上のためにクッキーを利用します。サイトの閲覧を続行されるには、クッキーの使用にご同意いただきますようお願いします。お客様のブラウザの設定によりクッキーの機能を無効にすることもできます。サイトポリシーを確認

                              都市のデジタルツインをWebブラウザで体感!東京都デジタルツイン実現プロジェクト
                            • Open source and open data

                              There’s currently an ongoing debate about the value of data and whether internet companies should do more to share their data with others. At Google we’ve long believed that open data and open source are good not only for us and our industry, but also benefit the world at large. Our commitment to open source and open data has led us to share datasets, services and software with everyone. For examp

                                Open source and open data
                              • TechCrunch | Startup and Technology News

                                Line Man Wongnai, an on-demand food delivery service in Thailand, is considering an initial public offering on a Thai exchange or the U.S. in 2025.

                                  TechCrunch | Startup and Technology News
                                • 日本語指示データ・日本語擬似レビューの公開 - Megagon Labs | リクルート AI研究機関

                                  このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします. 日本語指示データ 大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです. 英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です. そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします. このデータは以下の特徴をもちます. オープンソースライセンス 社会や料理など様々な話題を含む対話 自然な日本語表現からなる対話 この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結

                                  • 研究情報のオープン化を目指すバルセロナ宣言が発出される:cOAlition Sはこれに歓迎を表明

                                    2024年4月16日、研究を実施・助成・評価する機関や研究情報のインフラを提供する機関の関係者らのグループによって、研究情報のオープン化を目指すバルセロナ宣言(“Barcelona Declaration on Open Research Information”)が発出されました。 書誌データや助成情報といった研究に関するメタデータのオープン化を標準とすることや、それを可能にするサービスやシステムをサポートすることなど四つの原則を掲げています。支援機関としてはCrossref、DataCite、学術文献データベースOpenAlexを運営する非営利団体OurResearchなどが名を連ねています。 この宣言に対しては、研究助成機関のコンソーシアムであるcOAlition S が同日に歓迎を表明しています。表明では、cOAlition Sが長年に渡ってメタデータのオープン化を掲げていたことに

                                      研究情報のオープン化を目指すバルセロナ宣言が発出される:cOAlition Sはこれに歓迎を表明
                                    • OpenAI、トレーニング用の安全で広範なデータセット構築目指す「Data Partnerships」立ち上げ

                                      米OpenAIは11月9日(現地時間)、AIモデルをトレーニングするためのパブリックおよびプライベートのデータセットを構築するためにサードパーティと協力するパートナーシップ「OpenAI Data Partnerships」の立ち上げを発表した。 同社は公式ブログで、このパートナーシップの目的は「より多くの組織がAIの将来の舵取りを支援できるようにし」「より有用なモデルから恩恵を受けられるようにすること」と語った。 「最終的に全人類にとって安全で有益なAGIを実現するには、AIモデルがすべてのテーマ、業界、文化、言語を深く理解」する必要があり、そのために可能な限り広範なトレーニングデータセットが必要だとしている。 データには、画像、音声、動画などを含める予定で、多様な言語、トピック、形式での長文のテキストや会話など、「人間の意図を表現する」データも含める計画。 パートナーシップ参加組織と協

                                        OpenAI、トレーニング用の安全で広範なデータセット構築目指す「Data Partnerships」立ち上げ
                                      • オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 | 宙畑

                                        オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 「【事例付き】ビッグデータ時代に持つべき”データ活用に必要な視点”とは」にて、オープンデータの今とこれからをオープンデータ伝道師の福野さんにインタビューした内容を掲載しました。 本記事では、オープンデータについてさらに調査を進め、どのような活用事例があるのか、また、世の中にどのようなオープンデータがあるのかをまとめました。 無料のオープンデータがビジネスをアップデートする、その面白さをご紹介できればと思います。 (1)オープンデータとは まず、本題に入る前にオープンデータとは何かという定義から紹介します。 「OPEN DATA HANDBOOK」を見ると、オープンデータとは、「自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのこと」とあります。また、オープンデータとして「

                                          オープンデータ活用事例28選とおすすめのデータセット、都道府県別サイト一覧【オープンデータの基本から解説】 | 宙畑
                                        • CC-100: Monolingual Datasets from Web Crawl Data

                                          This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b

                                          • 約16万件の商品・サービスの口コミデータ、NIIが無償提供 自然言語処理などの研究向けに

                                            口コミのジャンルは「引越し」「保険」「旅行」「美容」「資格」など暮らしに密接したものを用意。NIIは「肯定的・否定的コメントのいずれも、具体性や根拠をもった口コミを収載していることを特徴としている」とし、自然言語処理分野などでの利用を想定する他、主観的な評価スコアと組み合わせた分析も可能としている。 NIIでは2015年4月にデータセット共同利用研究開発センターを設置。データサイエンス研究のため、さまざまな民間企業や研究機関が持つ各種データセットを受け入れ、研究者に提供する「情報学研究データリポジトリ」事業に取り組んできたという。今回の取り組みもその一環に当たる。 関連記事 「ディープフェイク」を見破るプログラム、NIIが開発 圧縮された映像でも一定の信頼性 国立情報学研究所が、ディープフェイクを見破るプログラムを開発した。WebAPIとして提供するため、同プログラムを組み込んだWebサー

                                              約16万件の商品・サービスの口コミデータ、NIIが無償提供 自然言語処理などの研究向けに
                                            • トマトの画像物体検出データセットが無料公開 農業でのAI活用に | Ledge.ai

                                              Laboro.AIは7月15日、同社のエンジニアコラムにてトマト画像物体検出データセット「Laboro Tomato」を公開した。 Laboro Tomatoは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)のもと、非商用目的に限り無料で公開している。なお、商用目的での利用の際は、Laboro.AIの問い合わせフォームより連絡が必要だ(外部サイト)。 >> Laboro.AI >> Laboro.AI エンジニアコラム 合計804枚の画像データ 成熟、半熟、緑熟に応じたアノテーションLaboro Tomatoは、物体検出技術のなかでも精緻な検出を実現するインスタンスセグメンテーションでの利用を想定して開発された。インスタンスセグメンテーションとは、画像をピクセル単位で分

                                                トマトの画像物体検出データセットが無料公開 農業でのAI活用に | Ledge.ai
                                              • NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース

                                                米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。 LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。 Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデル

                                                  NVIDIA、AIトレーニング用合成データ生成モデル「Nemotron-4 340B」を商用利用可でリリース
                                                • Boston Housing:ボストンの住宅価格(部屋数や犯罪率などの13項目)の表形式データセット

                                                  連載目次 データセット解説 Boston Housingデータセット(The Boston house-price data)(ボストンの住宅価格データ)は、「1970年代後半における(米国マサチューセッツ州にある)ボストンの住宅価格」の表形式データセット(=構造化データセット)である(図1、米国国勢調査局が収集した情報から抽出&加工して作成されたデータセットである)。 Boston Housingは、主に回帰(数値予測、つまり「住宅価格の予測」)を目的としたディープラーニング/機械学習/統計学の研究や初心者向けチュートリアルで使われている(※ただし、ディープラーニングを行うにはデータ数が506件と少なすぎる点に注意が必要だ)。 Boston Housingは、13属性(説明変数、入力データ)+1属性(目的変数、ラベル=正解を示す教師データ)の14属性で構成されている。各属性(列項目)の意

                                                    Boston Housing:ボストンの住宅価格(部屋数や犯罪率などの13項目)の表形式データセット
                                                  • PyTorchで深層学習データセットを効率的に取り扱うために | | AI tech studio

                                                    AI Labの大田(@ciela)です。近頃はリサーチエンジニアとして研究成果を最大化するためのエンジニアリングに責任を持って日々活動しています。昨年もPyTorchに関する記事を書かせていただきましたが、今回もPyTorch、特にPyTorchでの学習データセットの取り扱いについてのお話になります。これまで部署内のプロダクトと関わる上でTensorFlowに浮気することも何度かありましたが、PyTorchに対する感覚を鈍らせたくはなく、今後もPyTorch関連の話題には頑張ってキャッチアップしていく所存です。 深層学習データセット取扱の課題 昨今の深層学習に用いられるデータセット内のデータ数は一般的に大規模です。実際に学習する上ではデータセットをシャッフルしつつ繰り返しロードし、場合によっては適切な前処理やData Augmentationだってしなくてはなりません。それらの処理を並列化

                                                      PyTorchで深層学習データセットを効率的に取り扱うために | | AI tech studio
                                                    • GitHub - ids-cv/wrime

                                                      Haruya Suzuki, Sora Tarumoto, Tomoyuki Kajiwara, Takashi Ninomiya, Yuta Nakashima, Hajime Nagahara. Emotional Intensity Estimation based on Writer’s Personality. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing: Student Research Workshop (AACL-SRW 2022), pp.1-

                                                        GitHub - ids-cv/wrime
                                                      • 行政をハックし、行政データをオープンにしてみようとした結果 - 2019年の取組みと今後の展望

                                                        この記事は CAMPHOR- Advent Calendar 2019 21日目の記事です。 半年くらい前になりますが、Civic Tech Forumというシビックテックのイベントで登壇しました。 話した内容は ・派遣会社の情報を厚生労働省に情報公開請求したことがキッカケで、行政や自治体が保有している色んな情報の在り処を調べるようになった ・実際に情報公開請求すると、自治体によってデータの項目がバラバラだったり、ファイル形式もバラバラ ・エリアをまたいで欲しい情報をみんなが得られるようにするために、データ項目とファイル形式を揃えて一覧で見られるようにしたい(下図) というもの。 このときに話した構想を形にするべく、半年間かけて試行錯誤してきました。今日はこの半年間で取り組んだことを書こうと思います。 (文章が多少雑多な感じになってます、ご容赦を🙏) 目次・2019年に取り組んだこと ・

                                                          行政をハックし、行政データをオープンにしてみようとした結果 - 2019年の取組みと今後の展望
                                                        • 東京都の補助金、1兆円が「どこにいくら渡されたか見えない」|SlowNews | スローニュース

                                                          スローニュースでは、プロジェクト「オープンデータウオッチ」を始めます。国や自治体がオープンにしているデータをもとに、税金の使われ方や事業が適正に行われているのかなどをチェックしていきますよ。まず最初に取り上げるのは、東京都の補助金です。 東京都の補助金は年間1兆8000億円の巨額東京都がいろんなところに渡している「補助金」って年間1兆8000億円(令和4年度予算ベース)にも上る巨額だとご存じでした?もちろん、私たちの税金が原資です。都民じゃないから関係ない?いやいや、これ国の予算が東京都を通して払われているものもかなり含まれているので、元をたどれば全国の人が関係してますよ。他人事じゃないんです。 東京都の「補助金サーチ」よりだからこそ、使い道をはっきりさせてほしいんですよね。ところが、全然わからないんです。これ、東京都にふつうに聞くと、「支出先は公開しています」って答えるんですよね。でも、

                                                            東京都の補助金、1兆円が「どこにいくら渡されたか見えない」|SlowNews | スローニュース
                                                          • 新型コロナウイルスのオープンデータサイト集 | リサーチ・ナビ | 国立国会図書館

                                                            公的機関では新型コロナウイルスに関する二次利用が可能なデジタルデータ(オープンデータ)を提供していることがあります。 このページでは、新型コロナウイルスに関する公的機関のオープンデータおよびオープンデータの利活用事例を探せるウェブサイトのうち、主要なものを取り上げて紹介します。利用条件は、各ウェブサイトをご覧ください。 1. 世界OECD Open data in action: initiatives during the initial stage of the COVID-19 pandemic 新型コロナウイルスに関するオープンデータの利活用事例集です。 OPSI COVID-19 Innovative Response Tracker/Open Dataは、利活用事例を視覚的に展望することができます。米国 共通役務庁 DATA.GOV キーワードでデータセットを検索することができ

                                                              新型コロナウイルスのオープンデータサイト集 | リサーチ・ナビ | 国立国会図書館
                                                            • 医療機関の医療提供体制の状況を地図にプロットした。

                                                              新型コロナウイルス感染症対策推進室(内閣官房)にて、先日公開された「全国医療機関の医療提供体制の状況」のデータを地図にプロットしてみました。 政府CIOポータルの方でも地図にプロットされた状態で公開されているのですが、少し動作が重くて見づらかったのと、 Deck.gl + Material-UI の練習がてら作ってみました。 アプリの説明 データ量(約2MB)が多いため、初回アクセス時は表示されるまでに結構時間がかかります。 スマホでも見れますが、データ量が多いのと操作しづらいのでできればPCで見てください。 * PC(モダンブラウザ)推奨 医療提供体制の状況マップ サークル表示 全ての医療区分データをポイントとして表示しています。遠目でも見やすいようにちょっと大きめに表示しています。 データは一病院ごとではなく、医療区分(外来や救急など)ごとになっているので、同じ病院では同じ位置に重なっ

                                                                医療機関の医療提供体制の状況を地図にプロットした。
                                                              • 東京23区の「3次元地質地盤図」を初公開、地下の立体図が示す武蔵野台地の地質リスク

                                                                都内に新しい施設や住宅を建てるとき、計画地の地質や地盤がどうなっているかは気になるところだ。国立研究開発法人産業技術総合研究所(産総研)の地質調査総合センターは2021年5月に日本で初めて、東京23区の地下の地質構造を立体的に見られる「3次元地質地盤図~東京23区版~」を完成させ、Webサイトで公開した(https://gbank.gsj.jp/urbangeol/)。 東京都心部(23区)の「3次元地質地盤図」。地下の地層分布や立体図をWebサイトから自由に見られる(資料:産業技術総合研究所地質調査総合センター)

                                                                  東京23区の「3次元地質地盤図」を初公開、地下の立体図が示す武蔵野台地の地質リスク
                                                                • 「差別をAIに植え付ける」としてMIT研究者らが大規模なデータセットをネットから完全削除

                                                                  近年は人工知能(AI)が差別や偏見を行う可能性が危険視されており、「人工知能アルゴリズムを用いた画像生成が差別を行っている」とFacebookの人工知能部門におけるチーフ研究者が多くの非難や攻撃を受け、Twitterアカウントを停止する事態にもなっています。ニューラルネットワークを訓練する過程ではデータセットが用いられますが、このデータセットが差別の原因となっているとして、10年以上使われてきた大規模なデータセットが研究者自身の手によって削除されました。 80 Million Tiny Images https://groups.csail.mit.edu/vision/TinyImages/ MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogy

                                                                    「差別をAIに植え付ける」としてMIT研究者らが大規模なデータセットをネットから完全削除
                                                                  • NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models

                                                                    NVIDIA today announced Nemotron-4 340B, a family of open models that developers can use to generate synthetic data for training large language models (LLMs) for commercial applications across healthcare, finance, manufacturing, retail and every other industry. High-quality training data plays a critical role in the performance, accuracy and quality of responses from a custom LLM — but robust datas

                                                                      NVIDIA Releases Open Synthetic Data Generation Pipeline for Training Large Language Models
                                                                    • 繧ェ繝シ繝励Φ繝翫ぎ繧オ繧ュ

                                                                      逧�縺輔∪縺ァ閾ェ逕ア縺ォ豢サ逕ィ縺励※縺�縺溘□縺阪◆縺�縲ゅ→縺�縺�諤昴>縺九i 髟キ蟠守恁縺御サ翫∪縺ァ縺ョ讌ュ蜍吶〒蜿門セ励@縺滓�先棡蜩√r 繧ッ繝ェ繧ィ繧、繝�繧」繝悶�サ繧ウ繝「繝ウ繧コ繝サ繝ゥ繧、繧サ繝ウ繧ケ縺ョ 繧ェ繝シ繝励Φ繝�繝シ繧ソ縺ォ縺励∪縺励◆縲� 蝟カ蛻ゥ繝サ髱槫霧蛻ゥ蝠上o縺壹#蛻ゥ逕ィ蜿ッ閭ス縺ァ縺吶��

                                                                      • 浮世絵顔データセット

                                                                        浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築します。 ARC浮世絵顔データセット ARC浮世絵顔データセットは、機械学習を用いて浮世絵から顔領域を自動抽出し作成した、顔に関するデータセットです。立命館大学アート・リサーチセンター(ARC)が国立情報学研究所の情報学研究データリポジトリ(IDR)で公開する「立命館ARC所蔵浮世絵データベース」を対象に、共同研究グループがデータセットを作成しました。以下のGitHubリポジトリ(英語)では、顔のデータセットに加え、画像などのデータをダウンロードし分析するためのスクリプトもあわせて提供します。 GitHub: rois-codh/arc-ukiyoe-faces: ARC Ukiyo-e Faces Dataset 図:データセット中で浮世絵の画像が最も多い10人の作者 2021年6月現在、

                                                                          浮世絵顔データセット
                                                                        • OPEN EATS JAPAN - Code for JapanCode for Japan

                                                                          HOME活動OPEN EATS JAPAN OPEN EATS JAPAN飲食店情報をもっとオープンに!「OPEN EATS JAPAN」は飲食店情報をオープン化して広く社会で共有するためのプロジェクトです。 2020年の春頃から、新型コロナウイルスの感染拡大を防ぐために多くの飲食店が休業を余儀なくされた状況を受け、各地では飲食店を支援するためにテイクアウトやデリバリーが可能な飲食店情報を収集して公開する多くのプロジェクトが立ち上がりました。 このような取り組みを一過性のものに終わらせず、今後も地域で協力して飲食店情報の発信を進めるために、各地で収集された飲食店データを広く様々なアプリやサービスで利用可能にするための標準フォーマットを検討するプロジェクトを有志で立ち上げました。 ドキュメント&リソース飲食店情報オープンデータ項目定義書飲食店情報をオープンデータとして公開する際の標準的なフォ

                                                                            OPEN EATS JAPAN - Code for JapanCode for Japan
                                                                          • 【実習編】QGISで六角形メッシュを利用しよう~クマ目撃情報の可視化~|はとば

                                                                            I. はじめに 日本のメッシュ統計マップといえば、標準地域メッシュを用いた四角形のメッシュによるものが一般的です。それに対し、近年は六角形のメッシュ「Hexagonal Grid」を用いた地図が見られるようになりました(※1)。 六角形のメッシュ自体は昔からあるものです。しかし、六角形メッシュを手軽に作れる機能がGISに実装されていなかったため、これまではほとんど活用されてきませんでした。 2010年代以降、統計解析の分野では、扱うデータ数の増大によりデータの分布を散布図で表現しても点が重なったりグラフ内を埋め尽くしたりして分布傾向が分からないため、ヒートマップ(密度プロット)やヘキサゴナルビニング(hexbin)といった集約処理を用いて表すことが多くなりました。 六角形メッシュを使って主題図を描こうという文化は、このデータサイエンス分野からGISに輸入され普及した感じがします(※2)。

                                                                              【実習編】QGISで六角形メッシュを利用しよう~クマ目撃情報の可視化~|はとば
                                                                            • IBM、機械学習向けに55種類以上の開発言語で利用可能な大規模データセットを公開 - 「Project CodeNet」

                                                                              IBMは米国時間2021年5月11日、55種類以上の開発言語で利用可能な約1,400万のサンプルコードを通じて、AI(人工知能)の学習を推進する大規模なデータセット「Project CodeNet」をGitHubで公開したことを公式ブログで明らかにした。対応する開発言語はC++、C、Python、Javaが主要ながらも、COBOLやPascal、FORTRANといったレガシーな開発言語もサポートする。 GitHub上のProject CodeNetページ 開発者はサンプルコードからメタデータを抽出し、AI手法の調査や追跡、コード修正などに利用可能。IBMは「豊富なプログラムが多数の言語で記述されているが、Project CodeNetはソース間翻訳のベンチマークデータセットとして機能する。(視覚データを認識するための大規模データセットである)ImageNetが(2/3次元画像処理などを自動

                                                                                IBM、機械学習向けに55種類以上の開発言語で利用可能な大規模データセットを公開 - 「Project CodeNet」
                                                                              • 科学技術振興機構(JST)、2020年2月22日にJ-STAGEへの機能追加としてデータリポジトリ対応機能をリリース

                                                                                  科学技術振興機構(JST)、2020年2月22日にJ-STAGEへの機能追加としてデータリポジトリ対応機能をリリース
                                                                                • 誰でも使える統計オープンデータ

                                                                                  この度、「誰でも使える統計オープンデータ」の開講に先立ち、実践編となる『社会人のためのデータサイエンス演習』を特別開講しております。 公的統計の基本的な知識と実践的な使い方を学んだあと、実践編の『社会人のためのデータサイエンス演習』と併せて学習していただくことで、より活用の幅が広がるかと思います。この機会に、ぜひご受講ください。 ※「《特別開講》社会人のためのデータサイエンス演習」は、修了証の発行はございません。 >>演習編はこちら<< 講座内容 オープンデータである統計データを活用したデータサイエンスをわかりやすく解説します。 今、様々な意思決定の場で、統計的な思考力によって様々な課題を解決していく能力、すなわち“データサイエンス”力の高い人材が求められている。本コースでは“データサイエンス”力の向上を目指し、事例なども踏まえ、e-Stat(政府統計の総合窓口)、統計GIS(jSTAT

                                                                                    誰でも使える統計オープンデータ