タグ

ブックマーク / nlp.ist.i.kyoto-u.ac.jp (4)

  • BART日本語Pretrainedモデル - LANGUAGE MEDIA PROCESSING LAB

    BART日語Pretrainedモデル † BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。 今回、日語テキストのみを使ってpretrainingしましたので公開します。 2023/05/09追記: Hugging Face hubでも公開しています (Base, Large)。 ↑ 詳細 † 入力テキスト: 日Wikipedia全て (約1800万文、半角を全角に正規化) Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers

    gayou
    gayou 2021/02/27
    すごい
  • 日英中基本文データ - LANGUAGE MEDIA PROCESSING LAB

    更新履歴 † 2020/03/28 英訳の一部に誤りがあったため、修正(V1-3) 2011/07/26 一部に空行があったため、修正(V1-2) 2011/07/13 公開開始(V1) ↑ データ概要 † 日語基文データ (2011/7/13 京都大学黒橋・河原研究室) 京都大学格フレームをベースに日語の基的な文を自動抽出し、人手で修正を行った5304文。文中のメタ記号は下記を意味する。 X : 名詞句または「...すること」などの節 ~: 引用文 (「~と誰かが思った」など) ※ ただし、数量に挟まれた「2~3」などは通常の意味 英語中国語基文データ (2011/7/13 NICTマスタープロジェクト多言語翻訳研究室) 上記日語基文データを英語中国語に翻訳したデータである。 ↑ サンプル † #0001 日: Xではないかとつくづく疑問に思う 英: I often wo

  • 言語処理基盤としての言語資源

    1 -タグ付きコーパス,生コーパス, そして新聞記事からウェブへ- 河原 大輔 情報通信研究機構 言語処理基盤としての言語資源 言語処理学会第13回年次大会チュートリアル (2007/03/19) http://www2.nict.go.jp/x/x161/member/kawahara/NLP2007tut.pdf 言語資源とは The term language resources refers to sets of language data and descriptions in machine readable form, used specifically for building, improving or evaluating natural language and speech algorithms or systems, and in general, as core

  • JUMAN++ - LANGUAGE MEDIA PROCESSING LAB

    形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. ↑ 使用方法 † たとえば,次のようなテキストを入力すると, % cat sample.txt 外国人参政権 私もあさって日曜最終日 以下の解析結果が得られます. % cat sample.txt | jumanpp 外国 がいこく 外国

    gayou
    gayou 2016/10/01
    Mecabしか使ったことないから気になる
  • 1