タグ

nlpと日本語に関するymym3412のブックマーク (7)

  • 自然な日本語ダミーテキストを生成するWebアプリを作りました

    こんな感じの文章を自動生成できます。 二人の男女を一様に観察していました。私は仕方なしに立って、再び封の中へ、自分の左右前後を見廻して母の頭は陛下の病と父の病と父の病とを結び付けて考えるのが変に気味が悪かったのです。固よりそこにはまるで解りませんけれど、おそらくそんな意味じゃないでしょう。私の考えは行き詰まればいつでも両方が同時に奥さんのいる事をとうから自覚していました。先生の附近で盗難に罹ったものが、僻んだ私の眼を擦りました。それでも鷹揚に育った私は、もっと海の中で遊んでいられるか、宅へ帰って卓に向った時、両親の死に断えた私の卒業する前に、また一種の弛みができても、決して強い言葉で説明しました。 モチベーション 同じようなツール・サービスはいくつも公開されていますが、ほとんどが以下の 3 つの方式を採用しており、個人的にはあまり満足できていませんでした。 短い定型文の繰り返し: 一種の

    自然な日本語ダミーテキストを生成するWebアプリを作りました
  • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

    こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

    BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
  • Wikipediaを用いた日本語の固有表現抽出データセットの公開

    Wikipediaを用いた日語の固有表現抽出データセットの公開

    Wikipediaを用いた日本語の固有表現抽出データセットの公開
  • ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

    BERT日語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日語も含まれていますので日語のタスクに多言語pretrainedモデルを利用することも可能ですが、基単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基単位とし、日語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日

  • 大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita

    はじめに 以前、日語のBERT事前学習済モデルの紹介記事を投稿しましたストックマークの森長です。 前回の記事を多くの皆様に読んでいただき、大変ありがたく思っております。 そこで、今回はBERTに続いて、ELMoの日語学習済モデルを公開いたします。 ELMoとは ELMoは双方向LSTMを用いて学習させた言語モデルです。 ELMoによって、文脈を考慮した単語分散表現(単語ベクトル)を獲得できます。 自然言語処理では、文脈を考慮した単語ベクトルを用いることで、語義の曖昧性解消が見込めます。 例えば、以下の「人気」という単語のように、文脈によって意味が異なる単語でも、ELMoでは文脈を考慮して文脈ごとの「人気」の単語ベクトルを獲得可能です。 あのキャラクターは人気がある。 この道路は、夜に人気がなくて、危ない。 ELMoの単語ベクトルの具体的な利用方法としては、ELMoで獲得した単語ベクトル

    大規模日本語ビジネスニュースコーパスを学習したELMo(MeCab利用)モデルの紹介 - Qiita
  • 【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita

    記事は、Lionbridge AI発の連載記事を再編集したものです。他の機械学習に使えるオープン・データセットまとめ記事は、こちらからご覧ください。 記事は、日語のデータセットを紹介いたします。日語の公開データセットを無料ダウンロードできるポータルサイトや、自然言語処理に使える日語のテキストデータセットを含みます。 機械学習に使える日語のデータセットポータル DATA GO JP: 日政府のデータカタログサイト。日政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイ

    【13個掲載】 機械学習に使える日本語のデータセットまとめ - Qiita
  • 日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク

    最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日の自然言語処理界隈では、文分散表現モデルであるBERTの日語を含む多言語モデルが公開になったばかりなので、日語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 言語資源に関しては、2019年6

    日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク
  • 1