العربيةDeutschEnglishEspañol (España)Español (Latinoamérica)FrançaisItaliano日本語한국어NederlandsPolskiPortuguêsРусскийไทยTürkçe简体中文中文(香港)繁體中文
ML事業部の近江崇宏です。 ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。) 一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います! レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー
近年、社会活動や企業活動の一部として世界的に三次元データの利用が拡大しており、多種多様なデータを容易に検索/閲覧できるシステムが、データの提供者と利用者の双方から求められています。3DDB Viewer は、産総研の3Dデータベース用に開発された Web ユーザインタフェースで、様々な三次元データ(点群/メッシュ/構造物等)を検索/表示/ダウンロードすることができます。マニュアルはこちら。
ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)は、情報学・統計学の最新技術を用いて人文学資料(史料)を分析する「データ駆動型人文学」や、人文学研究の成果に基づき構築したデータセットを超学際的に活用する「人文学ビッグデータ」など、オープンサイエンス時代の新しい人文学研究を展開します。[もっと詳しく..][CODHパンフレット..] 重要なお知らせ 2023-11-02 歴史×技術の出会いの場として、第1回ヒストリーテック勉強会を11月22日にオンラインで開催します。参加無料です。 2023-10-18 歴史的地名の「行政区画変遷」を大規模オープンデータ化~『日本歴史地名大系』を平凡社地図出版との協働により機械可読データとして強化~ >> お知らせ一覧 X (Twitter) - Timeline
Yahoo Releases the Largest-ever Machine Learning Dataset for Researchers By Suju Rajan Data is the lifeblood of research in machine learning. However, access to truly large-scale datasets is a privilege that has been traditionally reserved for machine learning researchers and data scientists working at large companies – and out of reach for most academic researchers. Research scientists at Yahoo L
I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? I am currently doing a massive analysis of Reddit's entire publicly available comment dataset. The dataset is ~1.7 billion JSON objects complete with the comment, score, author, subreddit, position in comment tree and other fields that are available through Reddit's API. I
Microsoft Research provides a continuously refreshed collection of free datasets, tools, and resources designed to advance academic research in many areas of computer science, such as natural language processing and computer vision. Access these datasets at https://msropendata.com. Our programs over the years have supported academics to push the state-of-the-art with data science and cloud: NSF Bi
こんにちは。検索・編成部の原島です。 大学の研究者にお会いすると、「クックパッドのデータを研究に使用したいんですが...」と相談されることがあります。料理に関する研究をしているけれど、実際のデータがないため、なかなか研究が進まないという相談です。 料理に関する研究が進まないのは、クックパッドにとっても残念なことです。これらの研究は、クックパッドのサービスを改善するための「芽」でもあります。データがないだけで芽が育たないのは、非常に悲しい話です。 このような現状を打破するため、本日から、クックパッドのデータを研究者に公開します。このエントリでは、我々が準備してきたデータ公開の仕様について QA 形式で解説します。 誰が利用できるの? 申請していただいた研究者です。ただし、公的機関(e.g. 大学、独立行政法人)の研究者に限ります。申請時には、クックパッドと国立情報学研究所(後述)による審査が
We provide a tokenizer, a part-of-speech tagger, hierarchical word clusters, and a dependency parser for tweets, along with annotated corpora and web-based annotation tools. Contributors: Archna Bhatia, Dipanjan Das, Chris Dyer, Jacob Eisenstein, Jeffrey Flanigan, Kevin Gimpel, Michael Heilman, Lingpeng Kong, Daniel Mills, Brendan O'Connor, Olutobi Owoputi, Nathan Schneider, Noah Smith, Swabha Swa
Updated January 2024 We are excited to announce a series of semi-technical data courses and two new data certification programs from Pragmatic Institute. Available in 2024, these courses are designed for data professionals aiming to sharpen their skills and beginners eager to break into the data science field. Learn About Pragmatic Data Welcome to Pragmatic Data In 2019, The Data Incubator officia
The Economist has been publishing the Big Mac Index since 1986. In grad school I was studying Purchasing Power Parity and decided to use data from the Big Mac Index as part of my final paper. The problem was that the data available online only went back to the year 2000 and the years 1986 through 2000 were nowhere to be found. I went to the University of Michigan library and spent about 14 hours l
Open research positions in SNAP group are available at undergraduate, graduate and postdoctoral levels. Social networks : online social networks, edges represent interactions between people Networks with ground-truth communities : ground-truth network communities in social and information networks Communication networks : email communication networks with edges representing communication Citation
Rdatasets is a collection of 2279 datasets which were originally distributed alongside the statistical software environment R and some of its add-on packages. The goal is to make these data more broadly accessible for teaching and statistical software development. What is included? The list of available datasets (csv and docs) is available here: HTML index CSV index On the github repository you wi
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く