タグ

2023年3月29日のブックマーク (3件)

  • Wikipediaの日本語コーパスの準備|npaka

    Wikipediaの日語コーパスを準備する方法をまとめました。 1. Wikipediaダンプファイルの取得はじめに、https://dumps.wikimedia.org/jawiki/latest/ から、Wikipediaの日語のダンプファイル「jawiki-latest-pages-articles.xml.bz2」をダウンロードおよび解凍します。 ・解凍前 : jawiki-latest-pages-articles.xml.bz2 (3.2GB) ・解凍後 : jawiki-latest-pages-articles.xml : (13.47GB) 2. Wikipediaの日語コーパスの作成 WikipediaのダンプファイルはXML形式なので、記事を抽出するツール 「WikiExtractor」を使って、XMLタグを削除します。 (1) AnacondaでPython

    Wikipediaの日本語コーパスの準備|npaka
    serihiro
    serihiro 2023/03/29
  • 自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う - Sansan Tech Blog

    3行で はじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較 利用するデータセット 利用したコード 適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみる まとめ 注釈 3行で Sentencepieceの論文概要を説明した。 自身のTweetを用いて、SentencepieceとMeCabの分割点の違いを調べた。 Sentencepieceでは生文から生成された特徴的な分割が見られた。一方、今回のような少ない学習データでは上手く分割できない。 はじめに Sansan DSOC 研究開発部の齋藤です。 最近Sentencepieceの論文を読む機会があったので、論文の概要説明と、実際に使ってみようと思い立ちました。 前半で論文の説明を行い、後半でSentencepi

    自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う - Sansan Tech Blog
    serihiro
    serihiro 2023/03/29
  • 大規模言語モデルの驚異と脅威

    2022年11月にOpen AIが公開したChatGPTが世界で注目を集めている。一般ドメインかつ多言語で、従来のチャットボットとはレベルの異なる高品質の対話をリアルタイムに実現するサービスを(Research Preview版ではあるが)無料で提供し、検索、金融、広告、教育、法務などの広範囲な分野の転換点となり得ることは、驚異的なことである。講演では、ChatGPTがベースにしているInstructGPTを中心に、大規模言語モデルやプロンプト、人間のフィードバックによる強化学習などの技術を概観する。また、ChatGPTのような生成型の人工知能が社会やビジネス、学術にもたらす脅威について述べる。 https://aip.riken.jp/sympo/sympo202303/

    大規模言語モデルの驚異と脅威