[B! dataset][nlp] manboubirdのブックマーク

manboubird id:manboubird

datasetとnlpに関するmanboubirdのブックマーク (14)

United Nations Parallel Corpus
manboubird 2023/01/21
unitedNations

corpus

dataset

nlp

translation

multilingual
リンク
日本語における評価用データセットの構築と利用性の向上（JED2022）
What's New ¶ 2022.03.18 ワークショップは終了しました．沢山の方々のご参加ありがとうございました！また今後も様々なイベントを開催していく予定です．公式Twitterアカウント@jedws などをご覧ください． NLP 2023 OKINAWAに合わせ，JED2023の開催を目指しています．来年は沖縄科学技術大学院大学（OIST）でお会いしましょう！趣旨 ¶ 言語処理学会第28回年次大会（NLP 2022）併設ワークショップ - 日本語における評価用データセットの構築と利用性の向上（JED2022）日本語NLP 技術の性能評価のためのデータセットが近年いくつか公開されているが，他の言語と比べると基本的なタスクが不足しており，日本語NLPの迅速な発展を阻害する要因となっている．英語などのデータセットを日本語に翻訳するアプローチもあるが，翻訳プロセスに由来するアーティファ
manboubird 2021/12/27
dataset

jed

conference

nlp

training

machineLearning

dataQuality

evaluation
リンク
Annotated Corpus for Named Entity Recognition
manboubird 2021/11/07
kaggle

namedEntityRecognition

corpus

dataset

nlp
リンク
ComeJisyo プロジェクト日本語トップページ - OSDN
医療記録の分かち書きを支援するために実践医療用語辞書ComeJisyoと、分かち書き結果から合成語を生成するツール「GoMusubi」を公開しています。 ComeJisyoは、形態素解析器MeCabのユーザ辞書として用います。 Mecabのシステム辞書IPA辞書の影響に加え、ComeJisyoの品詞誤りもあり、ComeJisyoの見出し語が過分割される場合があります。そこで、解析結果の品詞を元に合成語を生成するツール「GoMusubi」を作成しました。公開履歴　　　2021年 4月　 Wcompounder_Ver.1.0　　　　　GoMusubi_Ver.2.0を構成するプログラムの内、合成語を生成するプログラムのソースコードを公開します。動作環境　：　Windows10（64ビット）使用言語　：　python3.8 2021年 4月　 GoMusubi_Ver.2.0　　　　　
manboubird 2021/11/07
nlp

comejisho

dataset

mecab

medical
リンク
sonoisa/sentence-bert-base-ja-mean-tokens · Hugging Face
manboubird 2021/11/07
nlp

embdeddings

sentenceBert

bert

preTraining

transformer

japanese

model

dataset
リンク
OSCAR
Open Source Project on Multilingual Resources for Machine Learning The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. The project focuses specifically in providing large quantities of unannotated raw data that is commonly use
manboubird 2021/10/29
oscar

corpus

dataset

nlp

commonCrawl
リンク
Cookpad Parsed Corpus: Linguistic Annotations of Japanese Recipes
manboubird 2021/10/29
cookpad

paper

acl

dataset

cooking
リンク
Build and Analyze Knowledge Graphs with Diffbot
manboubird 2021/10/13
knowledgeGraph

diffbot

dataset

nlp
リンク
Wikipediaを用いた日本語の固有表現抽出データセットの公開
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
manboubird 2021/08/30
wikipedia

namedEntityExtraction

dataset

bert

nlp

stockmark
リンク
GitHub - google-research-datasets/clang8: cLang-8 is a dataset for grammatical error correction.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
manboubird 2021/08/12
google

dataset

clang

nlp
リンク
KnowledgeNet: A Benchmark Dataset for Knowledge Base Population
manboubird 2021/02/28
knowledgeGraph

knowledgeBase

paper

diffbot

emnlp

nlp

dataset
リンク
Wikipediaを用いた日本語の固有表現抽出データセットの公開
ML事業部の近江崇宏です。ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現（固有名詞）を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。（企業名抽出については過去のブログ記事を参考にしてください。）一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします！ご自由にお使いいただければと思います！レポジトリ：https://github.com/stockmarkteam/ner-wikipedia-dataset 固有表現をハイライトしたサンプ
manboubird 2020/12/16
nlp

dataset

stockmark
リンク
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開 | Recruit - リクルートグループ
リクルートのAI研究機関、『じゃらんnet』のクチコミを活用した日本語自然言語処理の発展を加速する学術研究用データセットを公開株式会社リクルートホールディングスの中間持ち株会社である株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、このたび、当社のAI研究機関であるMegagon Labsより、日本語の自然言語処理研究の発展に貢献するため、株式会社リクルートライフスタイル（本社：東京都千代田区、代表取締役社長：淺野健、以下リクルートライフスタイル）が運営する旅行サイト『じゃらんnet』のクチコミに基づく約12万件のデータを含む学術研究用データセットを、公的研究機関および大学の研究で活用いただくために公開します。日本語の自然言語処理における課題自然言語処理とは、私たちが日常的に使っている言語（自然言語）をコンピューターに解析させる一連の処理を指し
manboubird 2020/10/20
travel

jaran

megagonLab

opendata

dataset

recruit

nlp
リンク
Real-time Recommendations using Spark Comcast Labs
JOIN THE GLOBAL DATA COMMUNITY FOR 500+ SESSIONS AND EXPLORE HOW DATA INTELLIGENCE ENABLES EVERY ORGANIZATION TO HARNESS THE POWER OF GENAI ON THEIR OWN DATA.
manboubird 2013/12/01
shark

optimization

queryPlanner
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx