[2ページ] Datasetの人気記事 138件 - はてなブックマーク

41 - 80 件 / 138件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Datasetの検索結果41 - 80 件 / 138件

LLM のデータセットまとめ｜npaka
- 34 users
- note.com/npaka
- テクノロジー
- 2023/04/03
LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh) ・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 1-2. Code・The Stack 2 (en) ・The Stack (en) ・StarCoder (en) 2. SFTデータセット2-1. Instruction・ichikara-instruction (ja) ・ich
グーグル、世界の地表をほぼリアルタイムで監視する「Dynamic World」を公開
- 34 users
- japan.cnet.com
- テクノロジー
- 2022/06/10
Googleの最新のマッピングツール「Dynamic World」は、世界の水、植生、雪や人為的な開発のデータをほぼリアルタイムで表示する。 Dynamic Worldは、洪水、山火事、森林伐採、都市開発などによる環境破壊の影響を把握するのに役立つと、Googleは米国時間6月9日の発表で述べた。地球の環境と開発の問題に取り組む非営利団体で、このツールの開発に協力した世界資源研究所（WRI）の食糧、森林、水、海洋担当バイスプレジデントCraig Hanson氏は次のように述べた。「世界的な土地のひっ迫を受け、よりスマートで効率的かつ持続可能な土地の利用法を見出すよう求める圧力が高まっている。世界が土地から必要なものを生み出し、残された自然を保護し、失われたものをいくらかでも回復させるには、地球のすべての土地に対して、信頼性の高い、ほぼリアルタイムのモニタリングが必要だ」 Googleはこ
- Google
- 地図
- GIS
- 環境
- Map
- dataset
Google Colabを用いたNDLOCRアプリの実行（Google Driveを用いた画像の入力と結果の保存） - デジタルアーカイブシステムの技術ブログ
- 34 users
- nakamura196.hatenablog.com
- テクノロジー
- 2022/04/29
概要ノートブック実行方法入力フォルダの準備ノートブックの実行：1.初期セットアップノートブックの実行：2.設定ノートブックの実行：3.実行まとめ追記 2022.05.02 2022.04.30 概要前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901
- OCR
- google
- jupyter
- 画像
- あとで読む
- 技術
- ブログ
GitHub - JPCERTCC/phishurl-list: Phishing URL dataset from JPCERT/CC
- 34 users
- github.com/JPCERTCC
- テクノロジー
- 2022/08/31
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- JPCERT
- security
- github
- URL
- あとで読む
- dataset

アドレス・ベース・レジストリ｜デジタル庁
- 33 users
- www.digital.go.jp
- 政治と経済
- 2022/04/22
アドレス・ベース・レジストリは、ベース・レジストリにおいて住所・所在地のマスターデータ及びその運用システム全体を指します。「アドレス」という言葉を用いているのは、一般的に「住所」は住民が居住する場所を、「所在地」は法人等が事業を営む場所を示すものですが、ベース・レジストリにおいては、住所や所在地に加えて農地や林地の場所など、地番の存在する場所全てを検討対象とすることから、それら全てを包含する意図で「アドレス」という言葉を用いています。取組の背景住所・所在地の情報は、個人の住所や法人や公共施設の所在地等、官民の多くの台帳の項目として用いられています。住所・所在地は図1のような構造になっていますが、町字情報や住居表示情報は市区町村、地番は登記所でそれぞれ個別に管理されていることから、行政において、標準的な住所・所在地を一元的に管理できていません。さらに、一般に流通している住所・所在地の表記の
- gis
- 行政
- データ
- dataset
- 情報
Weights & Biases: The AI Developer Platform
- 33 users
- wandb.ai
- テクノロジー
- 2019/11/02
Build models faster, fine-tune LLMs, develop GenAI applications with confidence, all in one system of record developers are excited to use.
Deep Learningの各種タスクにおけるベンチデータセットとデータ数をまとめた - Qiita
- 32 users
- qiita.com/peisuke
- テクノロジー
- 2020/12/23
ABEJAアドベントカレンダー2020の19日目の記事です。この記事は何？結局AIって何個データ必要なの？ってよく聞かれると思います。そんなん知るかこの記事では、ある程度精度が出ている既存のタスクにおいて、どんなデータを、どのくらいの量与えているかを調べた結果です。ちなみに、僕自身、すべてのタスクを扱ったことがあるわけでは無いので、ほぼ一部適当な部分もあるかと思いますが、ご容赦ください。あと、このデータが入ってないよ！ってツッコミも歓迎です。あと、技術は常に進んでいるので、ちゃんと最新技術を追っておけば、より少ないデータで良い結果を出すことが出来ないこともない。が、最新技術とはいえ銀の弾丸ではないのが通常で、例えlightweightGANがでたからと言って、100枚で学習できます！とか勝手に広がると困っちゃう。色んなタスクにおいて、まぁ大体どんなタスクも一般的にはこんなもんよっ
Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される
- 31 users
- gigazine.net
- テクノロジー
- 2023/08/21
デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。 Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/ Revealed: The Authors Whose Pirated Books Are P
- meta
- AI
- 人工知能
- Copyright
- 著作権
- book
COVID-19 データの分析用のパブリックデータレイク | Amazon Web Services
- 31 users
- aws.amazon.com
- テクノロジー
- 2020/04/15
Amazon Web Services ブログ COVID-19 データの分析用のパブリックデータレイク COVID-19 のパンデミックは、世界中に脅威をもたらし、命を奪い続けています。私たちはこの病気と戦うために組織や科学的分野を超えて協力する必要があります。数え切れないほどの医療従事者、医学研究者、科学者、公衆衛生担当者は、すでに最前線で患者の世話、治療法の探求、国民の教育、政策立案の手助けをしています。AWS は、COVID-19 の原因となるウイルスをよりよく理解および追跡し、対応を計画し、最終的に封じ込めて制圧するために必要なデータとツールをこれらの専門家に提供することが一助になることを信じています。今日、私たちはパブリックの AWS COVID-19 のデータレイクを用意しました。このデータレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である
- aws
- COVID-19
- あとで読む
- データ
- dataset
- amazon
Shinnosuke Takamichi (高道慎之介) - jvs_corpus
- 30 users
- sites.google.com
- エンタメ
- 2019/08/17
This corpus consists of Japanese text (transcripts) and multi-speaker voice data. The specification is as follows. 100 professional speakers Each speaker utters: "parallel100" ... 100 reading-style utterances that are common among speakers "nonpara30" ... 30 reading-style utterances that are completely different among speakers "whisper10" ... 10 whispered utterances "falsetto10" ... 10 falsetto ut
- dataset
- language
- 日本語
- 言語
- データ
- research
- 研究
KMNIST／Kuzushiji-MNIST：日本古典籍くずし字（手書き文字）データセット
- 29 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/01/27
KMNIST／Kuzushiji-MNIST：日本古典籍くずし字（手書き文字）データセット：AI・機械学習のデータセット辞典データセット「KMNIST」について説明。7万枚の手書き文字（くずし字）の「画像＋ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。データセットをダウンロードできるPythonファイルについても紹介。
- 機械学習
- 文字
- Dataset
- Python
- HotEntry
自由に使える医療データセットまとめ |
- 27 users
- medtech-today.com
- 世の中
- 2023/06/05
今回はAIが使える、もしくは今後AIを使ってみたいという医療関係者のために、自由に使える医療用データセットをまとめました。
- dataset
- AI
- data
- medical
- 医療
- あとで読む
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
- 27 users
- www.recruit.co.jp
- テクノロジー
- 2020/10/19
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル（本社：東京都千代田区、代表取締役社長：淺野健、以下リクルートライフスタイル）が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。日本語の自然言語処理における課題自然言語処理とは、私たちが日常的に使っている言語（自然言語）をコンピューターに解析させる一連の処理を指し
- nlp
- 日本語
- 研究
- あとで読む
情報学研究データリポジトリメルカリデータセット
- 25 users
- www.nii.ac.jp
- 暮らし
- 2022/09/01
株式会社メルカリが国立情報学研究所を通じて研究者に提供しているデータセットです。 2023/09/01 更新データ概要フリマ商品データ株式会社メルカリが運営する，スマートフォン向けフリマアプリ「メルカリ」へ登録されたデータで，個人を特定する情報や非公開情報は含まれません。具体的なデータの内容は以下の通りです。アプリ上に公開されている商品データ（出品状態，商品名，商品の説明，販売価格，カテゴリ，商品の状態，サイズ，ブランド，送料の負担，発送の方法，発送元の地域，発送にかかる日数，いいね！の数，コメントの数，出品日時，更新日時）各商品ページにて公開されているコメントデータ各商品ページにて公開されている画像データ（対象全商品のサムネイル画像／一週間分のオリジナル画像）提供中のデータは2020年1月～12月の1年間に出品された商品が対象です。（データは随時更新される予定です）商品
- mercari
- dataset
Dynamic World - 10m global land cover dataset in Google Earth Engine
- 24 users
- dynamicworld.app
- テクノロジー
- 2022/06/10
Beginning August 14, 2021, the Caldor Fire burned 221,775 acres in El Dorado County, California, destroying over 1,000 structures and displacing thousands of residents. Days after the start of the fire, land cover changed from “trees” to “shrub/scrub” in Dynamic World. Snow is nothing unusual to people living on the Northeast coast. As the saying goes, if you don’t like the weather in New England,
- GIS
- Google
- Map
- 地図
- あとで読む
- dataset
- *あとで読む
Fairness入門 ~AIに倫理観を教える~
- 23 users
- ai-scholar.tech
- テクノロジー
- 2019/10/10
AIを勉強している皆さんこんにちは。皆さんはFairnessを知っていますか？ FairnessはAIの分野の一つで、近年とても注目されています。そこで、A Survey on Bias and Fairness in Machine LearningというFairnessのサーベイ論文を軸にしてFairnessの入門記事を書くことにしました。 2011年から2017年までのFairnessの論文数引用元: https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb Fairness(公平)とは AIにおけるFairnessという分野とは、「AIの判断を出来るだけ公平なものにしよう。」という分野です。公平なAIとは何でしょうか。例えば、人間に関する情報を入力とし、その人間が
データセットダウンロード | MADB Lab
- 23 users
- mediag.bunka.go.jp
- 学び
- 2022/10/02
データセットについての説明はこちらを御覧ください。マンガマンガ単行本 json-ld (39.4MB) turtle (35.8MB) マンガ雑誌各号 json-ld (6.8MB) turtle (6.3MB) マンガその他 json-ld (359KB) turtle (344KB) マンガ単行本シリーズ json-ld (14.2MB) turtle (13.0MB) マンガ雑誌 json-ld (423KB) turtle (400KB) マンガ雑誌掲載履歴 json-ld (2.1MB) turtle (1.9MB) マンガ雑誌内容細目 json-ld (23.6MB) turtle (21.3MB) マンガ所蔵 json-ld (18.1MB) turtle (17.3MB) アニメアニメテレビ番組 json-ld (8.7MB) turtle (8.2MB) アニメビデ
- manga
- dataset
- データ
- 技術
- マンガ
- 漫画
- アニメ
- ゲーム
GitHub - BandaiNamcoResearchInc/Bandai-Namco-Research-Motiondataset: This repository provides motion datasets collected by Bandai Namco Research Inc
- 23 users
- github.com/BandaiNamcoResearchInc
- テクノロジー
- 2022/04/28
This repository provides motion datasets collected by Bandai Namco Research Inc. Find here for a README in Japanese. There is a long-standing interest in making diverse stylized motions for games and movies that pursue realistic and expressive character animation; however, creating new movements that include all the various styles of expression using existing methods is difficult. Due to this, Mot
- 3d
- オープンデータ
- cg
- github
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 22 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
- 機械学習
- 自然言語処理
- NLP
- あとで読む
- Dataset
- HotEntry
- 学習
- 勉強
Welcome
- 21 users
- www.floridamuseum.ufl.edu
- 学び
- 2024/03/13
The openVertebrate project, oVert for short, is a new initiative to provide free, digital 3D vertebrate anatomy models and data to researchers, educators, students and the public. X-ray CT allows researchers to visualize and quantify hard-to-measure characteristics. This image shows high and low density areas of the skull of an Angolan burrowing pig-nosed frog. Florida Museum of Natural History im
- database
- データ
- dataset
- アイデア
- 生物
- 科学
AI・機械学習のデータセット辞典
- 19 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/01/22
データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク（CoLA／SST-2／MRPC／STS-B／QQP／MNLI／QNLI／RTE／WNLI）に対応するデータセットのコレクション。
- 機械学習
- dataset
- ai
- web
GitHub - LAION-AI/Open-Assistant: OpenAssistant is a chat-based assistant that understands tasks, can interact with third-party systems, and retrieve information dynamically to do so.
- 19 users
- github.com/LAION-AI
- テクノロジー
- 2023/02/05
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- oss
- 機械学習
- LLM
- 自然言語処理
- AI
- UI
- tool
Datasette
- 15 users
- datasette.io
- テクノロジー
- 2020/12/13
Datasette is a tool for exploring and publishing data. It helps people take data of any shape, analyze and explore it, and publish it as an interactive website and accompanying API. Datasette is aimed at data journalists, museum curators, archivists, local governments, scientists, researchers and anyone else who has data that they wish to share with the world. It is part of a wider ecosystem of 46
- data
- dataset
- webservice
- ツール
- tool
Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減
- 15 users
- prtimes.jp
- テクノロジー
- 2021/04/21
Unity、合成データセットの提供開始でAIトレーニングの時間と予算を大幅に削減カスタマイズ可能なコンピュータビジョンの提供により、プライバシーを損なうことなくデータへのアクセスを拡大マルチプラットフォーム向け統合開発環境「Unity」を提供するユニティ・テクノロジーズ・ジャパン株式会社（本社：東京都中央区、代表取締役：豊田信夫、以下当社）は、親会社であるUnityがコンピュータビジョンアプリケーションの開発コストを削減し、製造業、小売業、セキュリティ業界向けのAIをより迅速にトレーニングすることを目的とした「Unity Computer Vision Datasets」を発表しました。コンピュータビジョンのソリューション提供者は、厳格なプライバシーおよび規制基準を維持しながら、AIトレーニングの要求に合わせてオーダーメイドのデータセットを購入することができます。合成データが重要な
- Unity
- データ
- 学習
- dataset
- 会社
- 勉強
- AI
- 開発
- あとで読む
GitHub - megagonlabs/jrte-corpus: Japanese Realistic Textual Entailment Corpus (NLP 2020, LREC 2020)
- 14 users
- github.com/megagonlabs
- テクノロジー
- 2020/10/19
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- NLP
- データ
- github
- あとで読む
- dataset
日本語対話コーパス一覧
- 14 users
- individuality.jp
- 学び
- 2022/04/23
日本語対話コーパス一覧これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。本リストは、理化学研究所吉野幸一郎さん発案のもと、C4A研究所中野幹生さん、東北大学赤間怜奈さん、大阪大学駒谷和範さん、JAIST 吉川禎洋さん、リクルート林部祐太さん、京都大学児玉貴志さん、愛知工業大学徳久良子さんにご協力をいただき、水上雅博が作成いたしました（所属はリスト作成または更新時のものです）。もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。対話コーパス主に人同士または人とシステム間（2名以上の場合を含む）で、対話（模擬対話等を含む）を行ったコーパスです。名前データ量形式研究利用商用利用概要
- nlp
- language
- 言語
- dataset
CC-100: Monolingual Datasets from Web Crawl Data
- 13 users
- data.statmt.org
- テクノロジー
- 2020/11/02
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b
- 自然言語処理
- dataset
Mozilla Common Voice
- 12 users
- commonvoice.mozilla.org
- テクノロジー
- 2021/03/20
- voice
- dataset
- database
- web
Discovering millions of datasets on the web
- 12 users
- blog.google
- テクノロジー
- 2020/01/24
Overture Maps Foundation – Linux Foundation Project
- 12 users
- overturemaps.org
- 暮らし
- 2022/12/19
Powering current and next-generation map products by creating reliable, easy-to-use, and interoperable open map data
- map
- 地図
- Microsoft
- Amazon
- dataset
- data
OpenCALM-7BをLoRAでinstruction tuningするための実装解説 / QLoRAの実装も紹介 - Qiita
- 10 users
- qiita.com/m__k
- テクノロジー
- 2023/06/10
はじめに ※本記事で「現時点」という言葉は2023/6/1を指すこととします。先日（2023年5月17日）、サイバーエージェントが日本語に特化したLLM（Large Language Model）をhuggingface上に公開されました。現時点で日本語に特化したLLMで最大級のパラメータを持つモデル商用利用可能という点が非常に魅力的であり、すでにたくさんの方がこのOpenCALM-7Bを動かしたり、チューニングしたりされてるように、自分も勉強がてらこのLLMのチューニングに挑戦してみました。とはいえ、パラメータ数が68億と巨大ですし、単純な全パラメータのファインチューニングは、私の手元の環境では現実的ではなく、何かしら軽量化したりDeepSpeedなどのライブラリで効率よく処理する必要がありそうです。今回はLoRA（Low Rank Adaptation）と呼ばれる低リソース
- ChatGPT
- 日本語
GitHub - javascriptdata/danfojs: Danfo.js is an open source, JavaScript library providing high performance, intuitive, and easy to use data structures for manipulating and processing structured data.
- 9 users
- github.com/javascriptdata
- テクノロジー
- 2020/08/29
Danfo.js is fast and supports Tensorflow.js tensors out of the box. This means you can convert Danfo data structure to Tensors. Easy handling of missing-data (represented as NaN) in floating point as well as non-floating point data Size mutability: columns can be inserted/deleted from DataFrame Automatic and explicit alignment: objects can be explicitly aligned to a set of labels, or the user can
- javascript
- TypeScript
- Library
- data
- DataSet
- GitHub
データ拡張手法である左右反転に理解がいるかも知れない、Visual Chiralityとは
- 9 users
- ai-scholar.tech
- テクノロジー
- 2020/08/11
3つの要点 ✔️ Data augmentationによく用いられる反転に新しい概念を提唱 ✔️ 人間では気づかなかった左右反転を認識 ✔️ この性質を元にした拡張で、さらなる精度向上が期待できる Visual Chirality written by Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely (Submitted on 16 Jun 2020) Comments: Published by CVPR2020 Subjects: Computer Vision and Pattern Recognition (cs.CV) はじめに左右反転によるData augmentationは物凄く当たり前なデータ拡張手法であり、特に気にすることなく今まで使用してきた人もいるのではないでしょうか。私も今回の論文を読むまでは結構当たり前のように使っていま
グーグル「Dataset Search」、ベータ段階が終了--新機能も
- 8 users
- japan.zdnet.com
- テクノロジー
- 2020/01/27
Googleは米国時間1月23日、「Google Dataset Search」のベータ段階終了と新機能の追加を発表した。このツールは、リサーチャーらがオンラインで利用可能なデータを見つけやすくするよう支援する目的で設計されたものだ。この検索機能はオンラインで公開されているデータを集積する試みで、2018年に開始された。Google ResearchのリサーチサイエンティストであるNatasha Noy氏によると、これまでに2500万のデータセットをインデックス化したという。対象となるコンテンツは、ペンギンの個体数から医療データに至るまでさまざまであり、リサーチャーらによる仮説の検証や、サイエンティストによる機械学習（ML）アルゴリズムの訓練といった目的で利用できる。また、同ツールは一般の人々が利用することもできる。例えば「skiing」を検索すると、最速のスキーヤーが出す速度や、スキ
- dataset
- AI
- Google
- あとで読む
Open Dataset – Waymo
- 8 users
- waymo.com
- テクノロジー
- 2019/08/22
The field of machine learning is changing rapidly. Waymo is in a unique position to contribute to the research community, by creating and sharing some of the largest and most diverse autonomous driving datasets. Check out our latest dataset release of Perception Object Assets, which includes 31k unique perception object instances with sensor data for generative modeling! The 2023 Waymo Open Datase
- dataset
- 自動運転
Wikipediaを用いた日本語の固有表現抽出データセットの公開
- 7 users
- tech.stockmark.co.jp
- テクノロジー
- 2020/12/15
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
- NLP
- wikipedia
- dataset
- あとで読む
The Pile
- 7 users
- pile.eleuther.ai
- 世の中
- 2021/01/02
The Pile An 800GB Dataset of Diverse Text for Language Modeling What is the Pile? The Pile is a 825 GiB diverse, open source language modelling data set that consists of 22 smaller, high-quality datasets combined together.
- dataset
https://laion.ai/laion-400-open-dataset/
- 7 users
- laion.ai
- テクノロジー
- 2021/09/13
LVIS
- 7 users
- www.lvisdataset.org
- テクノロジー
- 2019/08/09
A new dataset for long tail object detection.
MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims | CopeNLU
- 7 users
- www.copenlu.com
- テクノロジー
- 2019/09/14
MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims Abstract We contribute the largest publicly available dataset of naturally occurring factual claims for the purpose of automatic claim verification. It is collected from 26 fact checking websites in English, paired with textual sources and rich metadata, and labelled for veracity by human expert journalists. We p
- dataset
- pdf
- 機械学習