efclのブックマーク - はてなブックマーク

Annotated-FKC-Corpus - LANGUAGE MEDIA PROCESSING LAB

efcl 2021/02/27

不安調査データのアノテーション付きコーパス

nlp

リンク

基本料理知識ベース - LANGUAGE MEDIA PROCESSING LAB

efcl 2021/02/27

料理名をキーにした材料などの知識データ

nlp

リンク

BART日本語Pretrainedモデル - LANGUAGE MEDIA PROCESSING LAB

BART日本語Pretrainedモデル † BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。今回、日本語テキストのみを使ってpretrainingしましたので公開します。 2023/05/09追記: Hugging Face hubでも公開しています (Base, Large)。 ↑ 詳細 † 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化) Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers

efcl 2021/02/27

BertでWikipediaの日本語ベースでトレーニングしたモデル

nlp

リンク

ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語

efcl 2020/05/16

BERTの日本語モデル

nlp

リンク

JUMAN - LANGUAGE MEDIA PROCESSING LAB

日本語形態素解析システム JUMAN † 本システムは，計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました．その際, 学校文法が計算機向きではないという問題を考慮し，使用者によって文法の定義，単語間の接続関係の定義などを容易に変更できるように配慮しました．新バージョン7.0の拡張点は以下の通りです．非反復形オノマトペ，長音記号による非標準表記，長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化たとえば，次のようなテキストを入力すると， % cat sample.txt カサつくビミョーだがんがるアジャイルだ爽健美茶ＴｈｉｎｋＰａｄ上海ガニぺっちゃりしてるありがとー行きたぁぁぁい以下の解析結果が得られます

efcl 2016/01/21

> 日本語形態素解析システム JUMAN

リンク

はてなブックマーク

タグ

ブックマーク / nlp.ist.i.kyoto-u.ac.jp (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス