タグ

NLPとwikipediaに関するtnalのブックマーク (3)

  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
  • RbCC-1 Samples | Center for Advanced Intelligence Project

    Cookieについて/Privacy Overview ウェブサイトは、利便性、品質維持・向上を目的に、Cookieを使用しております。詳しくはプライバシーポリシーをご覧ください。 This website uses cookies for the purpose of maintaining and improving convenience and quality. For details, please see Privacy Policy. 設定/Settings同意する/Accept同意しない/Reject ウェブサイトでは、利便性向上を目的にCookieを使用しております。Webサイトの基的な機能に不可欠なCookieは、ブラウザに保存されます。またウェブサイトへのアクセス状況を分析するため、サードパーティの必須ではないCookieも使用しています。必須ではないCooki

  • 強すぎて「会場がシーンと……」 クイズ王を圧倒した“早押しAI”の衝撃

    強すぎて「会場がシーンと……」 クイズ王を圧倒した“早押しAI”の衝撃:これからのAIの話をしよう(クイズ編)(2/2 ページ) その手法はこうだ。あらかじめWikipediaの記事タイトル(エントリ)、記事中の単語を関連性の「近さ」「遠さ」でマッピングしておく。例えば、織田信長と豊臣秀吉というエントリは近く、また豊臣秀吉の周辺には戦国時代という単語がある――というようなイメージだ。開発したモデルは、質問文に織田信長、戦国時代といった言葉が出てくると、それらと近しい言葉の“塊”付近に答えになる言葉がありそうだと推測し、候補を絞り込んでいく。このモデルには、Wikipediaの記事に加え、クイズボウルの過去問データも学習させた。 そうして完成したモデルを検証していると、例えば「モーツァルトの曲を答えなさい」という質問文に対し「モーツァルト」と解答するように、人名か曲名(作品名)かなど解答の“

    強すぎて「会場がシーンと……」 クイズ王を圧倒した“早押しAI”の衝撃
  • 1