タグ

自然言語処理に関するdmizuno55のブックマーク (3)

  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

    Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
  • 自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析|ハイクラス転職・求人情報サイト AMBI(アンビ)

    自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析 自然言語処理をサービスに投入し、“できること”とは?名刺管理サービス「Sansan」を提供するSansan社では、名刺に記載された情報のデータ化において、自然言語処理を徹底的に活用しています。同社のデータ統括部門DSOCで日夜研究を続ける奥田裕樹さんと高橋寛治さんの2人に、サービスの裏で動く、自然言語処理のユースケースを語っていただきました。 名前や企業名、電話番号、メールアドレス──。名刺のなかには、重要な個人情報がテキストの形で記載されています。 そういった情報や企業のWebページ情報などを解析し、ユーザーに有効活用してもらうべく研究開発を続けているのが、法人向けクラウド名刺管理サービス「Sansan」や個人向け名刺アプリ「Eight」を提供するSansan株式会社です。同社はいわば、日

    自然言語処理をサービスで活用しよう! Sansanに学ぶ「多種多様なテキスト」からのデータ分析|ハイクラス転職・求人情報サイト AMBI(アンビ)
  • AIが三国志を読んだら、孔明が知力100、関羽が武力99、を求められるのか?をガチで考える物語(自然言語処理編) - Qiita

    吉川英治の「三国志」@青空文庫をINPUTとして、 「自然言語処理」と「機械学習」によって上記のように、 武力や知力などのパラメータを推論する。 三国志小説機械学習結果として、 1つの武将を50次元ベクトルに変換し、そのベクトルを、 全く同じ「式」に入れて出てきた値が、上記の表。 このような方法:「小説(自然言語)」⇒「数値化」⇒「式」 によって、武力/知力を求めることが出来るか? という実験&研究が今回のテーマ。 他の成果としては、 以下のような武将名の「演算」が楽しめる。 (これも実際の出力結果より抜粋) 諸葛亮に近い人は誰? ⇒ 姜維、司馬懿、陸遜、周瑜、魏延、馬謖 劉備にとっての関羽は、曹操にとって誰? ⇒ 袁紹、張遼 ※若いころの馴染み的な意味や対比が多いので袁紹? 孫権にとっての魯粛は、劉備にとって誰? ⇒ 司馬徽(水鏡先生)、徐庶 ※賢者を紹介するポジションなのか? 精度の

    AIが三国志を読んだら、孔明が知力100、関羽が武力99、を求められるのか?をガチで考える物語(自然言語処理編) - Qiita
  • 1