gayouのブックマーク - はてなブックマーク

BART日本語Pretrainedモデル - LANGUAGE MEDIA PROCESSING LAB
BART日本語Pretrainedモデル † BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。今回、日本語テキストのみを使ってpretrainingしましたので公開します。 2023/05/09追記: Hugging Face hubでも公開しています (Base, Large)。 ↑ 詳細 † 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化) Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers
gayou 2021/02/27
すごい

自然言語処理
リンク
日英中基本文データ - LANGUAGE MEDIA PROCESSING LAB
更新履歴 † 2020/03/28 英訳の一部に誤りがあったため、修正(V1-3) 2011/07/26 一部に空行があったため、修正(V1-2) 2011/07/13 公開開始(V1) ↑ データ概要 † 日本語基本文データ (2011/7/13 京都大学黒橋・河原研究室) 京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。文中のメタ記号は下記を意味する。 X : 名詞句または「...すること」などの節～: 引用文 (「～と誰かが思った」など) ※ ただし、数量に挟まれた「２～３」などは通常の意味英語中国語基本文データ (2011/7/13 NICTマスタープロジェクト多言語翻訳研究室) 上記日本語基本文データを英語と中国語に翻訳したデータである。 ↑ サンプル † #0001 日: Xではないかとつくづく疑問に思う英: I often wo
gayou 2018/09/05
Corpus

機械翻訳
リンク
言語処理基盤としての言語資源
1 －タグ付きコーパス，生コーパス，そして新聞記事からウェブへ－河原大輔情報通信研究機構言語処理基盤としての言語資源言語処理学会第13回年次大会チュートリアル (2007/03/19) http://www2.nict.go.jp/x/x161/member/kawahara/NLP2007tut.pdf 言語資源とは The term language resources refers to sets of language data and descriptions in machine readable form, used specifically for building, improving or evaluating natural language and speech algorithms or systems, and in general, as core
gayou 2016/12/27
自然言語処理
リンク
JUMAN++ - LANGUAGE MEDIA PROCESSING LAB
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです．言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより，単語の並びの意味的な自然さを考慮した解析を行います．それにより JUMAN，MeCab に比べ大きく性能が向上しています．文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています．本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました． ↑ 使用方法 † たとえば，次のようなテキストを入力すると， % cat sample.txt 外国人参政権私もあさって日曜最終日以下の解析結果が得られます． % cat sample.txt | jumanpp 外国がいこく外国
gayou 2016/10/01
Mecabしか使ったことないから気になる

形態素解析

自然言語処理
リンク
1

はてなブックマーク

タグ

ブックマーク / nlp.ist.i.kyoto-u.ac.jp (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / nlp.ist.i.kyoto-u.ac.jp (4)

BART日本語Pretrainedモデル - LANGUAGE MEDIA PROCESSING LAB

日英中基本文データ - LANGUAGE MEDIA PROCESSING LAB

言語処理基盤としての言語資源

JUMAN++ - LANGUAGE MEDIA PROCESSING LAB

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス