[B! NLP][wikipedia] tnalのブックマーク

tnal id:tnal

NLPとwikipediaに関するtnalのブックマーク (3)

Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは？ Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。ページのフィルタリングペー
tnal 2020/09/26
nlp

wikipedia
リンク
RbCC-1 Samples | Center for Advanced Intelligence Project
Cookieについて/Privacy Overview 本ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプライバシーポリシーをご覧ください。 This website uses cookies for the purpose of maintaining and improving convenience and quality. For details, please see Privacy Policy. 設定/Settings同意する/Accept同意しない/Reject 本ウェブサイトでは、利便性向上を目的にCookieを使用しております。Webサイトの基本的な機能に不可欠なCookieは、ブラウザに保存されます。またウェブサイトへのアクセス状況を分析するため、サードパーティの必須ではないCookieも使用しています。必須ではないCooki
tnal 2018/04/20
nlp

wikipedia

dataset

2018
リンク
強すぎて「会場がシーンと……」　クイズ王を圧倒した“早押しAI”の衝撃
強すぎて「会場がシーンと……」　クイズ王を圧倒した“早押しAI”の衝撃：これからのAIの話をしよう（クイズ編）（2/2 ページ）その手法はこうだ。あらかじめWikipediaの記事タイトル（エントリ）、記事中の単語を関連性の「近さ」「遠さ」でマッピングしておく。例えば、織田信長と豊臣秀吉というエントリは近く、また豊臣秀吉の周辺には戦国時代という単語がある――というようなイメージだ。開発したモデルは、質問文に織田信長、戦国時代といった言葉が出てくると、それらと近しい言葉の“塊”付近に答えになる言葉がありそうだと推測し、候補を絞り込んでいく。このモデルには、Wikipediaの記事に加え、クイズボウルの過去問データも学習させた。そうして完成したモデルを検証していると、例えば「モーツァルトの曲を答えなさい」という質問文に対し「モーツァルト」と解答するように、人名か曲名（作品名）かなど解答の“
tnal 2018/02/28
nlp

search

wikipedia
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx