並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 138 件 / 138件

新着順 人気順

datasetの検索結果121 - 138 件 / 138件

  • https://twitter.com/ogawa_yutaro_22/status/1421961964025049088

      https://twitter.com/ogawa_yutaro_22/status/1421961964025049088
    • DALL·E 2 pre-training mitigations

      In order to share the magic of DALL·E 2 with a broad audience, we needed to reduce the risks associated with powerful image generation models. To this end, we put various guardrails in place to prevent generated images from violating our content policy. In order to share the magic of DALL·E 2 with a broad audience, we needed to reduce the risks associated with powerful image generation models. To

        DALL·E 2 pre-training mitigations
      • GitHub - mediaarts-db/dataset: メディア芸術データベース(ベータ版)データセット

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - mediaarts-db/dataset: メディア芸術データベース(ベータ版)データセット
        • delika

          • 「インテージデータセット」の新規データを提供開始 - 国立情報学研究所 / National Institute of Informatics

            国立情報学研究所 情報学研究データリポジトリ(IDR)では、株式会社インテージの協力の下で提供しているインテージデータセットにつきまして、限定された商品の購買履歴データとi-SSPデータを対応づけた「インテージパネルデータ」の提供を新たに開始しましたので、ご案内申し上げます。 インテージパネルデータ 清涼飲料水15ブランドを対象として、京浜エリア(埼玉・千葉・東京・神奈川)に所在している小売店及び同エリアに居住しているモニター700名から、2017年一年間に収集した、販売データ、購買履歴データ、及びメディア接触ログデータです。 具体的には、インテージが保有する以下の3種類のパネルデータから、上記の条件で抽出されたデータが含まれます。 SRI: 全国小売店パネル調査 SCI: 全国消費者パネル調査 i-SSP: インテージシングルソースパネル なお、モニターは、性別及び年齢でバランスを取って

              「インテージデータセット」の新規データを提供開始 - 国立情報学研究所 / National Institute of Informatics
            • 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) - 株式会社CoLabMix

              技術ブログ 2019.06.13 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) 今回は自然言語解析をfastTextを使って実施してみます。 fastTextはfacebookが公開している自然言語処理用のライブラリで、単語のベクトル化と文章分類を実施します。 ソースコードはこちらになります。 https://github.com/facebookresearch/fastText fastTextの利用方法は二つあり、「単語表現学習(Word representation learning)」と「文章分類(Text classification)」です。 単語表現学習(Word representation learning)では、単語をひたすら学習させて、似ている単語などを抽出します。 この単語に近いものや、

                機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) - 株式会社CoLabMix
              • AI学習データの活用ガイド!データセットを作成したい人は必見!

                近年はさまざまな分野でAI・人工知能が活用され始めており、「AIだからこそ実現できるもの」も多くなってきました。そのため、AIによる新たな可能性の実現に向けて、機械学習モデルの構築にフォーカスする企業も多いでしょう。しかし、機械学習モデルの構築を行う上では、AI学習データが欠かせません。そのAI学習データによって機械学習モデルが構築されるため、「データがどのように動くのか」を理解していくことも大切になるわけです。 では、このAI学習データとは一体どのようなものなのでしょうか。今回は、機械学習モデルを構築するために必要なAI学習データについて詳しく解説していくとともに、機械学習向け画像データセットの作り方や、Web上のオープンソースのデータセットなどをご紹介していきます。ぜひ参考にしてみてください。 教師あり学習について詳しく知りたい方は以下の記事もご覧ください。 AIの基礎「教師あり学習」

                  AI学習データの活用ガイド!データセットを作成したい人は必見!
                • Quilt Data

                  Quilt is a versioned data portal for AWS. Quilt integrates files into datasets that your whole company can discover, understand, and trust. Quilt is instant infrastructure to bring discoveries to market faster.

                    Quilt Data
                  • Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving Product Search

                    Improving the quality of search results can significantly enhance users experience and engagement with search engines. In spite of several recent advancements in the fields of machine learning and data mining, correctly classifying items for a particular user search query has been a long-standing challenge, which still has a large room for improvement. This paper introduces the "Shopping Queries D

                    • 【記事更新】私のブックマーク「対話システムと会話分析」 – 人工知能学会 (The Japanese Society for Artificial Intelligence)

                      徳久 良子((株)豊田中央研究所) 1.は じ め に 対話コーパスの規模の拡大や,深層学習などの技術の進化により,ここ数年で対話システムの応答生成の精度は大きく向上した.音声処理や画像処理などと同様に,対話システムにおいても「end-to-end 深層学習(end-to-end deep learning)」が全盛だ.「end-to-end 深層学習」とは,入力と出力のペアを学習器が“よしなに” 学習する方法で,大規模なコーパスと強力な学習器を用いることで,多くの分野で従来より高い性能が実現されている.対話システムでは,Facebook AI ResearchのBlenderbot や,MicrosoftのDialoGPTがオープンソース化されており,大規模な対話コーパスを用意すれば独自の発話生成モデルを学習することも可能となった. 一方,「会話分析(Conversation Analy

                      • QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ"

                        機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ

                          QDくん⚡️Python x 機械学習 x 金融工学 on Twitter: "機械学習用データセットを検索できるサイト Dataset Search https://t.co/6DZpLvGrh1 ・Googleが運営 ・キーワードを入力すると一覧表示 ・データセットのリンク、ファイル形式、更新日、デー… https://t.co/gtP3JZUKJQ"
                        • 日本語における評価用データセットの構築と利用性の向上(JED2022)

                          What's New ¶ 2022.03.18 ワークショップは終了しました.沢山の方々のご参加ありがとうございました! また今後も様々なイベントを開催していく予定です.公式Twitterアカウント@jedws などをご覧ください. NLP2023 OKINAWAに合わせ,JED2023の開催を目指しています.来年は沖縄科学技術大学院大学(OIST)でお会いしましょう! 趣旨 ¶ 言語処理学会第28回年次大会(NLP2022) 併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上(JED2022) 日本語NLP技術の性能評価のためのデータセットが近年いくつか公開されているが,他の言語と比べると基本的なタスクが不足しており,日本語NLPの迅速な発展を阻害する要因となっている.英語などのデータセットを日本語に翻訳するアプローチもあるが,翻訳プロセスに由来するアーティファ

                            日本語における評価用データセットの構築と利用性の向上(JED2022)
                          • 「非倫理的」なAI訓練データセット、削除するだけでは不十分

                            人工知能(AI)の訓練用にはかつて、ネット上のデータを許可なく集められたものが使われた。後に批判され、データセットを撤回する例が相次いだがが、撤回するだけでは問題の解決にはならない。 by Karen Hao2021.08.23 39 3 19 2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。 3年後、研究者のアダム・ハーベイ(Adam Harvey)とジュール・ラプラス(Jules LaPlace)がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベ

                              「非倫理的」なAI訓練データセット、削除するだけでは不十分
                            • すぐに無料で分析できる 7 つの公開データセット

                              Tableau を使う理由 Toggle sub-navigation Tableau とは データカルチャーの構築 Tableau Economy コミュニティ Salesforce Advantage Tableau のお客様 Tableau について Toggle sub-navigation ミッション 研究 受賞と称賛 Tableau Foundation Tableau における平等 採用 製品 Toggle sub-navigation Tableau プラットフォーム Tableau Desktop Tableau Server Tableau Cloud Tableau Prep CRM Analytics Tableau Public Data Management Tableau Server Management 埋め込み分析 統合 最新リリース プランと価格 ソリ

                              • amazon_reviews_multi · Datasets at Hugging Face

                                Dataset Card for The Multilingual Amazon Reviews Corpus Dataset Summary Defunct: Dataset "amazon_reviews_multi" is defunct and no longer accessible due to the decision of data providers. We provide an Amazon product reviews dataset for multilingual text classification. The dataset contains reviews in English, Japanese, German, French, Chinese and Spanish, collected between November 1, 2015 and Nov

                                  amazon_reviews_multi · Datasets at Hugging Face
                                • Google トレンドのデータを使った情報に基づく意思決定 | Google Cloud 公式ブログ

                                  ※この投稿は米国時間 2021 年 7 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 数週間前、Google は Google Cloud の一般公開データセット プログラムに新しいデータセットをリリースしました。Google トレンドです。Google のデータセット プログラムに慣れていないお客様もアクセスしてご自身の分析に統合できるよう、BigQuery および Cloud Storage 内にさまざまなデータセットをホストしています。Google はこうしたデータセットの保存費用を負担し、bigquery-public-data プロジェクトなどを経由してデータを一般提供しています。料金は、データに対するクエリにのみ発生します。さらに、毎月 1 TB までは無料です。加えて、まもなくすべての一般公開データセットが Analytics Hub を通

                                    Google トレンドのデータを使った情報に基づく意思決定 | Google Cloud 公式ブログ
                                  • The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

                                    Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclea

                                    • 産業における研究開発・イノベーションに関するデータ - 科学技術・学術政策研究所 (NISTEP)

                                      特許データや各種の統計データを用いて、日本の産業における研究開発やイノベーションについての分析を行うための企業名辞書を公開しています。 お知らせ 2023年9月13日      NISTEP企業名辞書Ver.2023_1の公開を行いました←NEW! 2023年8月18日  NISTEP大学・公的機関名辞書と特許出願情報との対応テーブルVer.2023_1の公開を行いました。 2022年11月10日  NISTEP企業名辞書Ver.2022_1の公開を行いました。 2021年10月4日  NISTEP企業名辞書Ver.2021_1の公開を行いました。 2020年9月23日  NISTEP企業名辞書Ver.2020_2の公開を行いました。 2020年2月25日  各データへのDOI付与とライブラリへの移行を行いました。 データ整備についての概要 産業における研究開発・イノベーションに関するデー

                                        産業における研究開発・イノベーションに関するデータ - 科学技術・学術政策研究所 (NISTEP)

                                      新着記事