サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
都知事選
nlp.ist.i.kyoto-u.ac.jp
BART日本語Pretrainedモデル † BARTは、encoder-decoder型のpretrainingモデルで、BARTの公式サイトでは英語pretrainedモデルと多言語pretrainedモデルが公開されています。 今回、日本語テキストのみを使ってpretrainingしましたので公開します。 2023/05/09追記: Hugging Face hubでも公開しています (Base, Large)。 ↑ 詳細 † 入力テキスト: 日本語Wikipedia全て (約1800万文、半角を全角に正規化) Juman++ (v2.0.0-rc3) で形態素に分割し、さらにSentencePieceでsubwordに分割したもの Base: 6 encoder-decoder layers, 768 hidden, Large: 12 encoder-decoder layers
BERT日本語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日本語も含まれていますので日本語のタスクに多言語pretrainedモデルを利用することも可能ですが、基本単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基本単位とし、日本語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日本語
日本語Wikipedia入力誤りデータセット (v2) † 本データセットはWikipedeiaの編集履歴から獲得した日本語入力誤りデータセットです。 Wikipediaの版間で差分を取ることで編集のある文ペアを取得し、それらに対しマイニングとフィルタリングを行うことで、入力誤りとその訂正文ペアを抽出しています。 データセットには、誤字・脱字・衍字・転字・漢字誤変換カテゴリの入力誤りが含まれており、合計約70万文ペアです。 詳細については参考文献を参照してください。 (なお、参考文献記載の上記カテゴリのデータに加えて、参考文献で構築した入力誤り訂正システムにおける対数尤度に基づいて収集した、その他カテゴリのデータも収録しています。) ↑ データ形式 † データは以下のようなjsonl形式です。 {"page": "104269", "title": "啓蒙思想", "pre_rev": "
[日本語] / [English] 京都大学 大学院情報学研究科 知能情報学コース 言語メディア分野(工学部電気電子工学科) 研究室へのアクセス JUMAN は有効な WikiName ではありません。 サイトポリシー
日本語形態素解析システム Juman++ † Juman++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model (RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. ↑ 使用方法 † たとえば,次のようなテキストを入力すると, % cat sample.txt 外国人参政権 私もあさって日曜最終日 以下の解析結果が得られます. % cat sample.txt | jumanpp 外国 がいこく 外国
京都大学ウェブ文書リードコーパス † 本コーパスは、さまざまなウェブ文書のリード(冒頭)3文に各種言語情報を人手で付与したテキストコーパスです。ウェブ文書のリード3文を収集することによって、ニュース記事、百科事典記事、ブログ、商用ページなど多様なジャンル、文体の文書を含んでいます。コーパスの規模は約5,000文書です。 言語情報としては、形態素・固有表現・構文・格関係、照応・省略関係、共参照、談話関係の情報を付与しています。言語情報の付与は、形態素解析システムJUMAN、構文・格・照応解析システムKNPで自動解析し、その結果を専門家が修正することによって行いました。談話関係については、専門家によって付与した小規模なコーパスに加え、クラウドソーシングによって付与した大規模なコーパスが含まれます。 ↑
日本語構文・格・照応解析システム KNP † KNPは日本語文の構文・格・照応解析を行うシステムです.形態素解析システムJUMANの解析結果(形態素列)を入力とし, 文節および基本句間の係り受け関係,格関係,照応関係を出力します. 係り受け関係,格関係および照応関係は,Webから自動構築した大規模格フレームに基づく確率的モデルにより決定します. KNPを試してみる ↑ バージョン4.1の拡張点 (2013/12/20) [New!] † 照応解析機能の追加 固有表現解析の精度向上 名詞格フレーム辞書の大規模化 (70億文Webテキストから構築) ↑ バージョン4.0の拡張点 (2012/01/12) † 格フレーム辞書の大規模化 (70億文Webテキストから構築) CRFに基づく固有表現解析機能の追加 類似度計算における分布類似度の利用 UTF-8化 たとえば,次のようなテキストを入力する
Last Modified: January 4, 2019 放送大学 自然言語処理('19) 放送時間:2021年度 [第1学期](月曜)06:45~07:30 放送大学のページ 印刷教材の訂正 改訂版 自然言語処理 (2019年3月〜) 2.1.4節 p.26,27 'a' -> 'α' (アルファ,3箇所) 4.2.2節 p.53 7行目 それぞ -> それぞれ 5.2.3節 p.67 図5.4 日付表現と左の3単語の間に'}' 人名と左の2単語の間に'}' 6.1.3節 p.75 脚注 2) の最後に '/'追加 9.1.2節 p.108 13行目 acusative -> accusative 9.1.2節 p.109 表9.1 チェールズ -> チャールズ 9章 参考文献 p.117 2行目 チェールズ -> チャールズ 10.3.2節 p.128 7行目 因果 -> 関係可能
機械学習に基づく自然言語処理 Ⅰ 黒橋 禎夫 京都大学情報学研究科 (情報通信研究機構 中川哲治氏の資料を改訂) 本日 本日の内容 • 機械学習に基づく言語処理 – 概要・特徴 – 学習コーパス – 言語処理タスクの整理 • • • • • 文書分類 ナイーブベイズ サポートベクターマシン 単語分割 依存構造解析 2 自然言語処理 自然言語処理の2つの方法論 • 規則ベースの方法 (人工知能的) – 60年代からの伝統的な手法 – 言語処理に必要な知識や規則を専門家が人手で作成 – 知識や規則の作成・保守に膨大な労力が必要 • 機械学習に基づく方法 (コーパスベース,確率・統計的) – 90年代から用いられるようになった手法,計算機の処理能力 の向上とともに発達 – コーパス(大量の言語データ)に情報(正解)を人手で付与し, そこから知識や規則を自動獲得(教師有り学習) –
黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。 何をしているのか。他の解析器 (ChaSen と Mecab) との比較など。 最近だと Yahoo! JAPAN の形態素解析 API なんてものがあるけど、仕様がよくわからない。 タスク: 日本語の形態素解析 文を形態素に区切る 各形態素に品詞を割り当てる 「名詞」や「動詞」など 内容物 プログラム デフォルトの文法辞書 デフォルトの形態素辞書 プログラムは放置で、実質的に辞書のみの更新。誰かどうにかしてほしいレガシーコード。 文法辞書と形態素辞書は利用者が自由に定義できるとマニュアルではうたっているが、デフォルト以外の辞書が配布されている例を知らない。 ChaSen と MeCab は配布のレベルで、プログラムと辞書を分離している。 IPAdic, NAIST jdic, UniDicなど エンコーディング デ
Last Modified: Jan 22, 2010 論文の書き方について (特に卒論,修論を書く学生の方へ) 1.よくタイトルを考える 2.適当に章立てを考える 3.よく,各章で何を書くかを考える 各章の内容を10項目ぐらいで箇条書き. ここでよく考えて章立てをかえてもよい. ★ ここで先生にみせる 4.最終論文の各文に対応する程度の細かさで,何を書くかを考える. まだメモ的でよい.表現,テニヲハにはこだわらない. ★ ここで先生にみせる. 5.用語の統一を行い,重要な図表などは書く ★ ここまでちゃんとできれば内容的には論文はできたようなもの. 6.日本語の文にする. (ちなみにここで英語の文にすれば英語の論文になる) ここからは作文テクニックの問題だが,大学生にとってはこれが大変. 日本の小中高教育ではまったく教わらない. 卒論・修論の分量なら本当は一月ぐらいかけて書く必要があるが
Textual Entailment 評価データ † 近年、RTE(Recognizing Textual Entailment)に関する研究が盛んに行われています。英語では、共通の評価データを用いてワークショップが開かれ、RTEの技術が進歩してきています。しかし、日本語ではそのような評価データが存在しません。そこで、我々は日本語のRTE評価データを作成しました。 (注: 現在ではRITEやRITE2で日本語RTEの評価セットが公開されています。それらの評価セットは新聞やWikipediaなどの実際の文から作成されており、現在の自然言語処理技術では非常に難しい問題が多く含まれています。一方、我々の評価セットは人手で作成したもので、ほとんどの問題において表現のずれは1箇所であり、RITEやRITE2のデータに比べてやさしい問題になっています。) 評価データは約2700セットからなり、それぞれ
日本語形態素解析システム JUMAN † 本システムは,計算機による日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツールを提供するために開発されました.その際, 学校文法が計算機向きではないという問題を考慮し,使用者によって文法の定義,単語間の接続関係の定義などを容易に変更できるように配慮しました. 新バージョン7.0の拡張点は以下の通りです. 非反復形オノマトペ,長音記号による非標準表記,長音記号・小書き文字を用いた長音化の自動認識 Wikipediaから抽出した辞書の追加 自動辞書(Webテキストから自動獲得した辞書)の改良 UTF-8化 たとえば,次のようなテキストを入力すると, % cat sample.txt カサつく ビミョーだ がんがる アジャイルだ 爽健美茶 ThinkPad 上海ガニ ぺっちゃりしてる ありがとー 行きたぁぁぁい 以下の解析結果が得られます
概要 京都大学情報学研究科と日本電信電話株式会社NTTコミュニケーション科学基礎研究所は、 共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、 2004年度から5年間の計画で、研究活動を開始しました。 この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、 実質的な研究交流と共同研究を行っていくことを目的としました。 また、京都大学とNTTという2つの組織の共同研究という枠を越え、 けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして 活動して参りました。 沿革 主な研究テーマ グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。 MeCab 言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。パラメータの推定
更新履歴 † 2020/03/28 英訳の一部に誤りがあったため、修正(V1-3) 2011/07/26 一部に空行があったため、修正(V1-2) 2011/07/13 公開開始(V1) ↑ データ概要 † 日本語基本文データ (2011/7/13 京都大学黒橋・河原研究室) 京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。文中のメタ記号は下記を意味する。 X : 名詞句または「...すること」などの節 ~: 引用文 (「~と誰かが思った」など) ※ ただし、数量に挟まれた「2~3」などは通常の意味 英語中国語基本文データ (2011/7/13 NICTマスタープロジェクト多言語翻訳研究室) 上記日本語基本文データを英語と中国語に翻訳したデータである。 ↑ サンプル † #0001 日: Xではないかとつくづく疑問に思う 英: I often wo
データ・コーパス † 京都大学テキストコーパス 京都大学ウェブ文書リードコーパス 京都大学格フレーム 京都大学名詞格フレーム BERT日本語Pretrainedモデル 基本料理知識ベース Textual Entailment 評価データ 日英中基本文データ 述部意味関係コーパス Asian Scientific Paper Excerpt Corpus (ASPEC) Workshop on Asian Translation (WAT) Chinese Penn Treebank 5.0 Reannotation Chinese Character-level POS Annotation A Chinese Treebank in Scientific Domain (SCTB) Kyoto University & JST Trilingual Technical Term Dict
京都大学格フレーム † Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約16億文の日本語テキストから自動的に構築しており、約4万用言からなるものです。以下のアドレスから格フレームおよびその原文を検索することができます。 ↑ 京都大学格フレームの検索 † 格フレーム検索 この格フレームのデータは、言語資源協会から配布しています。 格フレームをダウンロードして利用したい方は、言語資源協会の言語資源カタログをご覧ください。 京都大学格フレームに関するご意見、ご質問は nl-resource あっと nlp.ist.i.kyoto-u.ac.jp 宛にお願いいたします。 ↑ 参考文献 † Daisuke Kawahara and Sadao Kurohashi. A Full
京都大学テキストコーパス † 毎日新聞の記事に各種言語情報を人手で付与したテキストコーパスです。95年1月1日から17日までの全記事、約2万文、1月から12月までの社説記事、約2万文、計約4万文に対して、形態素・構文情報を付与しています。これらの情報は、形態素解析システムJUMAN、構文解析システムKNPで自動解析を行い、その結果を人手で修正したものです。 さらに、社説記事を除く約2万文に対しては、格関係、照応・省略関係、共参照の情報を付与しています。 ↑ ダウンロード † GitHubリポジトリ: https://github.com/ku-nlp/KyotoCorpus 過去のバージョン 京都大学テキストコーパス Version 4.0 (7,990,765 bytes) 形態素・構文情報のタグ付け基準マニュアル 格関係、照応・省略関係、共参照情報のタグ付け基準マニュアル ※ これらの
入試説明会後に研究室紹介を行います (2024/5/11 (土)) † 5月11日(土)に開催される知能情報学コースの入試説明会では、全体説明会のあとに研究室でオープンラボ・個別説明会を行います。15:00頃開始と16:00頃開始の2セッションを予定しています。 ↑ 以下の論文が2023年度 言語処理学会 論文賞を受賞しました。 (2024/3) † 大村 和正, 河原 大輔, 黒橋 禎夫: 基本イベントに基づく常識推論データセットの構築と利用 ↑ LREC-COLING 2024 (2024/5)で以下の論文発表を行います。 † Taishi Chika, Taro Okahisa, Takashi Kodama, Yin Jou Huang, Yugo Murawaki and Sadao Kurohashi: Domain Transferable Semantic Frames f
このページを最初にブックマークしてみませんか?
『言語メディア研究室 - LANGUAGE MEDIA PROCESSING LAB』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く