2021年4月2日のブックマーク (4件)

  • 日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG

    こんにちは。 カスタマーサクセス部リサーチャーの勝又です。 私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。 今回の記事では、国立国語研究所様との共同研究で作成した日語話し言葉BERTとその利用方法について紹介します。 概要 BERTの簡単な説明 話し言葉BERT作成方法 書き言葉BERTの文法を表現する部分のみをCSJで追加学習 書き言葉BERTに対して、話し言葉データを用いた分野適応 実験 文法を表現する部分のみを追加学習することの有効性の確認 話し言葉データを用いた分野適応を行うことの有効性の確認 日語話し言葉BERTの公開 ご利用方法 まとめ 概要 近年、自然言語処理の分野ではBERT(Bidirectional Encoder Representations from Transformers)と呼ばれるモ

    日本語話し言葉BERTを作成、公開します! - Retrieva TECH BLOG
  • 長文要約生成API:朝日新聞社メディア研究開発センター 人工知能研究の取り組み

    概要 APIは、入力された記事文(最大2,000文字まで入力可能=製品版)を機械学習を用いて要約するものです。過去30年分の記事データを、ディープラーニングの機構を用いて学習させています。長文を要約するときにお役立てください。 APIの機能は、 指定した長さごとに生成型要約 すべての文の長さを揃える すべての文を圧縮する 重要な文を抽出する 重要な文を抽出後圧縮して、指定した長さにする の5つです。より詳細はこちらに解説記事を載せています。 九州電力玄海原発3、4号機(佐賀県玄海町)の運転差し止めを住民らが求めた仮処分申し立ての即時抗告審で、福岡高裁(山之内紀行裁判長)は10日、住民側の抗告を棄却した。主な争点は、耐震設計の基になる基準地震動(想定される最大の揺れ)の合理性、原発周辺の火山の噴火リスク、配管の安全性の3点。 住民側は「基準地震動が過小評価されている」と主張。原子力規制

    gengohouse
    gengohouse 2021/04/02
    本APIは、入力された記事本文を機械学習を用いて要約するものです。過去30年分の記事データを、ディープラーニングの機構を用いて学習させています。長文を要約するときにお役立てください。
  • GitHub - azu/kuromojin: Provide a high-level wrapper for kuromoji.js. Cache/Promise API

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - azu/kuromojin: Provide a high-level wrapper for kuromoji.js. Cache/Promise API
    gengohouse
    gengohouse 2021/04/02
    Provide a high level wrapper for kuromoji.js.
  • 山内長承「Pythonによるテキストマイニング入門」のMeCabの扱いと、クラスAozoraについてのメモ - Qiita

    山内長承「Pythonによるテキストマイニング入門」のMeCabの扱いと、クラスAozoraについてのメモPythonmecab はじめに 山内長承「Pythonによるテキストマイニング入門」第4章でMeCabを使うが、詳しいインストール方法が書かれていない。別のサイトを参考にMeCabをインストールした上で、山内の著書内にある引数を変更したのでメモをしておく。 また、書で使われる、青空文庫にあるファイルをタグ抜きに変換するAozoraクラスについても、メモをしておく。 開発環境 windows10 セットアップ [文章生成]MeCabをインストールして分かち書きを試してみよう https://www.atmarkit.co.jp/ait/articles/2102/05/news027.html を参考にして、インストールをした。 上記の方法でインストールした場合は、p124「リスト4

    山内長承「Pythonによるテキストマイニング入門」のMeCabの扱いと、クラスAozoraについてのメモ - Qiita