並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 49件

新着順 人気順

UniDicの検索結果1 - 40 件 / 49件

  • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

    Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

      日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
    • 現代・古典日本語の形態素解析・係り受け解析のためのunidic2ud | yasuokaの日記 | スラド

      私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1    笑顔    笑顔    NOUN    名詞-普通名詞-一般    _    5   

      • BERTモデルを用いた日本語係り受け解析ツールSuPar-UniDicリリース | yasuokaの日記 | スラド

        昨年12月26日の日記で紹介したSuParを、UniDic2UDに繋いで、SuPar-UniDicという日本語係り受け解析ツールを試作してみた。現時点では、10種類のUniDic(unidic-liteを含む)を、7種類のBERTモデルと繋げられるので、合計70種類の組み合わせが楽しめる。しかも、解析結果はspaCy準拠だ。とりあえず、インストール。 $ pip3 install git+https://github.com/yzhangcs/parser --user $ pip3 install suparunidic --user

        • Unidic2UDと中古和文UniDicによる『源氏物語』の係り受け解析 | yasuokaの日記 | スラド

          思うところあって、UniDic2UDと中古和文UniDicで『源氏物語』の係り受け解析を試してみることにした。まずは、最新版のUniDic2UDを、辞書や言語モデルも一緒にインストール。 % pip3 install 'unidic2ud>=1.1.4' % python3 -m unidic2ud download.unidic wabun % python3 -m unidic2ud download.udpipe japanese-gsd % python3 >>> import unidic2ud >>> wabun=unidic2ud.load("wabun") >>> s=wabun("いづれの御時にか、女御、更衣あまたさぶらひたまひけるなかに、いとやむごとなき際にはあらぬが、すぐれて時めきたまふありけり。") >>> print(s) # text = いづれの御時にか、女御

          • 現代日本語・近代文語・旧字旧仮名係り受け解析ツールUniDic-COMBOをPyPIからリリース | yasuokaの日記 | スラド

            一発でインストールできる。一方、Cygwin (64bit)に関しては、python37-devel python37-pip python37-cython python37-numpy python37-cffi gcc-g++ mingw64-x86_64-gcc-g++ gcc-fortran git curl make cmake libopenblas liblapack-devel libhdf5-devel libfreetype-devel libuv-develパッケージをCygwinに入れておけば $ curl https://raw.githubusercontent.com/KoichiYasuoka/UniDic-COMBO/master/cygwin64.sh | sh $ python3 >>> import unidic_combo >>> nlp=uni

            • kuromoji.js + SudachiDict で形態素解析(辞書のビルド、IPADic・UniDic との比較) - Qiita

              kuromoji.js + SudachiDict で形態素解析(辞書のビルド、IPADic・UniDic との比較)JavaScript形態素解析SudachiDict UniDic の matrix.def のサイズが間違っていたので修正しました: 59GB → 5.9GB kuromoji.js (日本語形態素解析器 Kuromoji の JavaScript実装)と React を組み合わせて、クライアントサイドで完結するブラウザアプリを開発しています。kuromoji.js は IPADic (mecab-ipadic-20070801) をデフォルト辞書として使用していますが、収録語彙が私のアプリケーションの目的には最適ではないと感じていました。また、UniDic は機能面で魅力的ですが、ビルドして使ってみた結果、データサイズが大きすぎてスマートフォンでは動作しないという課題に

                kuromoji.js + SudachiDict で形態素解析(辞書のビルド、IPADic・UniDic との比較) - Qiita
              • 旧仮名口語UniDicによる漢文訓読の活用語尾自動付与 | yasuokaの日記 | スラド

                これに対し、実際どのように問い合わせているのか、という主旨の質問をいただいた。まあ、UD-Kundokuの中を読んでもらってもいいのだが、とりあえず「墮」という動詞に関して、MeCabのソフトわかち書きで、旧仮名口語UniDicに問い合わせてみよう。 $ pip3 install -U udkundoku $ python3 >>> import udkundoku,unidic2ud,MeCab,os >>> t=MeCab.Tagger("-d "+os.path.join(unidic2ud.DOWNLOAD_DIR,"qkana")+" -a -p -m -F%m,%pP,%H\\n") >>> print(t.parse("墮\t動詞")) 墮,0.000000,動詞,一般,*,*,文語四段-サ行,連用形-一般,オトス,落とす,墮,オトシ,オトシ,和,墮す,オトス,オトス,オトス

                • 国立国語研究所が、古文の形態素解析に利用できる UniDic 10種を公開

                  文学通信|多様な情報をつなげ、多くの「問い」を世に生み出す出版社 日本語・日本文学の研究書を中心に、人文学書全般を刊行する出版社、文学通信のブログ。 文学だけにこだわらず周辺領域も含め、意欲的に刊行していきます。 出版活動と同様に、webでも積極的に活動することで、多様な情報をつなげ、多くの「問い」を世に生み出していきたいと思います。 〒113-0022 東京都文京区千駄木2-31-3 サンウッド文京千駄木フラッツ1階101 電話03-5939-9027 FAX03-5939-9094 info@bungaku-report.com インボイス登録番号:T4011501023591

                    国立国語研究所が、古文の形態素解析に利用できる UniDic 10種を公開
                  • UniDic2UDとGiNZAで読む「難儀な難儀は難儀する」 | yasuokaの日記 | スラド

                    昨日の日記で示したUniDic品詞とUniversal Dependencies品詞の対応だが、かなり難儀なのが「名詞-普通名詞-サ変形状詞可能」だったりする。何せ「名詞」のくせにNOUNとは限らず、VERBだったりADJ(adjective)だったりするのだ。最新のUniDic2UD 1.9.1+現代話し言葉UniDicで、「難儀な難儀は難儀する」を解析してみよう。 $ echo 難儀な難儀は難儀する | unidic2ud -U spoken # text = 難儀な難儀は難儀する 1       難儀    難儀    ADJ     名詞-普通名詞-サ変形状詞可能    _       3      acl      _       SpaceAfter=No|Translit=ナンギ 2       な      だ      AUX     助動詞  _       1   

                    • UniDic 3.1.1 を使いたい - Qiita

                      Motivation 色々と理由があって東北大学の github repository などを見ることが多いのだが、もはや mecab-python3 や IPA 辞書は誰も使ってはおらず、fugashi や unidic-py, unidic-lite を使っているようだ。私の認識はかなり古かった。 なので今一度、MeCab とその辞書について考え直そう。 (MeCab じゃなくて JUMAN++, janome, nltk, spaCy, GiNZA じゃね?という話は置いておく) まずは mecab-python3 なのか fugashi なのかという問題だが mecab-python3 は MeCab 本体が必要 fugashi は MeCab 本体すら必要無い しかも fugashi は Cython で高速化している fugashi を使うという選択肢しか無い。 そして MeC

                        UniDic 3.1.1 を使いたい - Qiita
                      • kuromoji.js + UniDic で形態素解析(辞書のビルド) - Qiita

                        kuromoji.js (日本語形態素解析器 Kuromoji の JavaScript実装)と React でブラウザアプリを作っています。kuromoji.js はデフォルトでは IPADic (mecab-ipadic-20070801) を利用していますが、IPADic は現時点では更新が止まっており、辞書は新しいのがよい…… ということで、今回は UniDic 最新版(unidic-cwj-202302)を kuromoji.js 用にビルドして使ってみることにしました。 結果として、ブラウザアプリで UniDic 最新版を使って形態素解析を動かすことができました。 ただし、UniDic は IPADic に比べてデータ量が多いことに注意が必要です。パソコンのブラウザ(自分の M1 iMac + Chrome)では動作を確認できましたが、スマホなどリソースの限られた環境では難しい

                          kuromoji.js + UniDic で形態素解析(辞書のビルド) - Qiita
                        • unidic2ud

                          View statistics for this project via Libraries.io, or by using our public dataset on Google BigQuery Meta License: MIT License (MIT) Author: Koichi Yasuoka Tags unidic, udpipe, mecab, nlp Requires: Python >=3.6 UniDic2UD Tokenizer, POS-tagger, lemmatizer, and dependency-parser for modern and contemporary Japanese, working on Universal Dependencies. Basic usage >>> import unidic2ud >>> nlp=unidic2u

                            unidic2ud
                          • Stanzaの日本語モデルがUniDic品詞対応に | yasuokaの日記 | スラド

                            多言語係り受け解析ツールStanza 1.2が、無事にリリースされたとの連絡をいただいた。これまでのStanza 1.1.1はUniversal Dependencies 2.5準拠だったのが、今回のStanza 1.2はUniversal Dependencies 2.7に対応した。その結果、日本語モデルがUniDic品詞となっているのが、私(安岡孝一)個人としてはうれしい。とりあえず、あたらしい日本語モデルをダウンロードしてみよう。 $ pip3 install -U 'stanza>=1.2' $ python3 >>> import stanza >>> stanza.download("ja") >>> nlp=stanza.Pipeline("ja") >>> doc=nlp("国境の長いトンネルを抜けると雪国であった。") >>> print(doc) [ [ { "id":

                            • UniDic2UDによるCaboChaエミュレータ | yasuokaの日記 | スラド

                              日本語係り受け解析エンジンUniDic2UDを改造して、CaboCha風の係り受け表示が出来るようにしてみた。まずは、最新版のUniDic2UDを、UDPipeの言語モデルjapanese-gsdと共にインストール。 % pip3 install 'unidic2ud>=1.2.7' % python3 -m unidic2ud download.udpipe japanese-gsd % python3 >>> import unidic2ud.cabocha as CaboCha >>> c=CaboCha.Parser() >>> tree=c.parse("太郎はこの本を二郎を見た女性に渡した。") >>> print(tree.toString(CaboCha.FORMAT_TREE_LATTICE)) 太郎は-----------D この-D       | 本を---D   

                              • 変体漢文をUniDic品詞で表すことができるか | yasuokaの日記 | スラド

                                昨日の日記の続きだが、変体漢文が中古日本語の一種だとして、UniDic品詞によるUniversal Dependenciesで表すことはできるだろうか。『吾妻鏡』の「二品以銀作猫被宛贈物」で、少し考えてみよう。 1    二品    二品    NOUN    名詞-普通名詞-一般    _    6    nsubj    _    SpaceAfter=No 2    以    持つ    VERB    動詞-一般    _    6    advcl    _    SpaceAfter=No 3    銀作    銀作    NOUN    名詞-普通名詞-一般    _    4    nmod    _    SpaceAfter=No 4    猫    猫    NOUN    名詞-普通名詞-一般    _    2    obj    _    SpaceAfter=

                                • 現代日本語・近代文語・旧字旧仮名係り受け解析ツールUniDic-COMBOをCygwin64で動かすには | yasuokaの日記 | スラド

                                  昨日の日記で仮リリースしたUniDic-COMBOを、何とかCygwin (64bit)で動かすのに成功した。ただ、インストール手順がものすごくヤヤコシイため、とりあえず $ curl -L https://raw.githubusercontent.com/KoichiYasuoka/UniDic-COMBO/main/cygwin64.sh | sh 一行でインストールできるようシェル・スクリプト化した。でも、素のCygwin (64bit)では無理で、python37-devel python37-pip python37-cython python37-numpy python37-cffi gcc-g++ mingw64-x86_64-gcc-g++ gcc-fortran git curl make cmake libopenblas liblapack-devel libhd

                                  • Google ColaboratoryでUniDic2UDのSVGを表示するには | yasuokaの日記 | スラド

                                    UniDic2UDをGoogle Colaboratoryで使っていたところ、係り受け解析結果をSVG表示できないという問題に出くわした。ざっと調べてみたところ、Google Colaboratoryが使っているIPython.displayのSVGモジュールが非力で、SVG内部のJavaScriptを処理しきれていないことがわかった。でも、SVGを表示したい場面はあるだろうと思い、私(安岡孝一)なりにアレコレ考えてみた結果、Google Drive経由でならブラウザ(Chromium系列)のSVGをキックできることに気づいたので、ざっとコーディングしてみた。 !pip install unidic2ud import unidic2ud qkana=unidic2ud.load("qkana") s=qkana("其國を治めんと欲する者は先づ其家を齊ふ") from google imp

                                    • SuPar-UniDicで日本語係り受け解析 - Qiita

                                      日本語係り受け解析モジュールSuPar-UniDicは、単語間係り受けと二文節間係り受けの両方をサポートしている。Google Colaboratoryで動かしてみよう。 !pip install suparunidic import suparunidic nlp=suparunidic.load() doc=nlp("吾輩はここで始めて人間というものを見た") import deplacy deplacy.serve(doc,port=None) from suparunidic import bunsetu_span,bunsetu_spans from deplacy.deprelja import deprelja d=bunsetu_spans(doc) g="digraph{"+";".join([f'x{b.start}[label="{b.text}"]' for b i

                                        SuPar-UniDicで日本語係り受け解析 - Qiita
                                      • 「UniDic」国語研短単位自動解析用辞書|最新版ダウンロード(ALL)

                                        岡 照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017). 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). 伝 康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009). Yasuharu Den, Toshinobu Ogiso, Hideki Ogura, Atsushi Yamada, Nobuaki Me

                                        • fugashiとunidic-liteが不要な日本語BERTモデルの作成 | yasuokaの日記 | スラド

                                          昨日の日記で作ったbert-large-japanese-char-extendedだが、これにfugashiやunidic-liteが必要となるのは、私(安岡孝一)個人としては、どうにも解せない。そこで、昨日のプログラムをグッと睨んで、fugashiとunidic-liteを不要にすべく、トークナイザに改良を施してみた。 from google.colab import drive drive.mount("/content/drive") output_dir="/content/drive/My Drive/bert-large-japanese-char-extended" variants={"𠮟":"叱","塡":"填","剝":"剥","頰":"頬"} special_tokens=["[PAD]","[UNK]","[CLS]","[SEP]","[MASK]"] !pi

                                          • 旧字旧仮名日本語解析ツールとしてのUniDic2UD・GiNZA・Stanza・spacy-udpipe・NLP-Cube | yasuokaの日記 | スラド

                                            「國境のトンネルを拔けると、窓の外の夜の底が白くなつた。」という文に対し、UniDic2UD・GiNZA・Stanza・spacy-udpipe・NLP-Cubeで、単語間の係り受け解析をおこなってみた。deplacyで可視化した結果を、以下にしめす。 UniDic2UD+旧仮名口語UniDic 國境     NOUN  ═╗<╗           nmod の       ADP   <╝ ║           case トンネル NOUN  ═╗═╝<╗         obj を       ADP   <╝   ║         case 拔ける   VERB  ═════╝═╗═╗<╗   advcl と       CCONJ <══════╝ ║ ║   mark 、       PUNCT <════════╝ ║   punct 窓       NOUN  ═╗<╗

                                            • 多言語係り受け解析ツールとしてのUniDic2UD | yasuokaの日記 | スラド

                                              UniDic2UDには、公式ページに掲げた9つのUniDicに加えて、UDPipeの各言語を使う隠しオプションがある。具体的には「unidic2ud -U Dict」コマンドのDictのところに、たとえば以下のような各言語モデルを指定できる。 czech-pdt チェコ語 english-ewt 英語 estonian-edt エストニア語 french-gsd フランス語 german-gsd ドイツ語 italian-isdt イタリア語 korean-kaist 韓国語 latvian-lvtb ラトビア語 polish-pdb ポーランド語 portuguese-gsd ポルトガル語 russian-syntagrus ロシア語 spanish-gsd スペイン語 turkish-imst トルコ語 ukrainian-iu ウクライナ語 わかりやすいところで、「What fun

                                              • spaCyと現代書き言葉UniDicで読む『吾輩は猫である』 | yasuokaの日記 | スラド

                                                % python3 >>> import unidic2ud.spacy >>> ja=unidic2ud.spacy.load("gendai") >>> import urllib.request >>> with urllib.request.urlopen("http://www.cl.ecei.tohoku.ac.jp/nlp100/data/neko.txt") as r: ...   q=r.read() ... >>> doc=ja(q.decode("utf-8")) >>> g=set(t.sent for t in doc if t.lemma_=="バイオリン" and t.dep_=="obj" and t.head.lemma_=="始める") >>> print(g) [「君はヴァイオリンをいつ頃から始めたのかい。] >>> print(unidic2ud.s

                                                • 【メモ】MeCabでデフォルトの辞書を変更する/RMeCabでUniDicを使う - Livre para Viver

                                                  以下は自分用のメモ書きです。Rコンソール上でMeCabを動かすことのできるRMeCabを動かすときの辞書の指定には、.dicファイルしか使うことができないため、デフォルの辞書を変更したときの記録です。 初心者向けです。 ①Terminalを起動する。 ②以下のように入力する。パスワードを求められたら入力する。 sudo vi /usr/local/etc/mecabrc ③テキストエディタが起動すると以下ように表示されるので、赤字にした行のipadicをunidicに直す。編集できない場合はESCを入力するとできる。 ※なお、カーソルキーで場所を移動できる。 ; ; Configuration file of MeCab ; ; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $; ; dicdir =  /usr/local/l

                                                    【メモ】MeCabでデフォルトの辞書を変更する/RMeCabでUniDicを使う - Livre para Viver
                                                  • UniDic品詞体系

                                                    See detail on the site.

                                                    • 「実験を行っています」をUniDic2UDはどう解析するのか | yasuokaの日記 | スラド

                                                      $ echo 実験を行っています | unidic2ud # sent_id = 1 # text = 実験を行っています 1    実験    実験    NOUN    名詞-普通名詞-サ変可能    _    3    obj    _    SpaceAfter=No 2    を    を    ADP    助詞-格助詞    _    1    case    _    SpaceAfter=No 3    行っ    行う    VERB    動詞-一般    _    0    root    _    SpaceAfter=No 4    て    て    SCONJ    助詞-接続助詞    _    3    mark    _    SpaceAfter=No 5    い    居る    AUX    動詞-非自立可能    _    3    aux 

                                                      • 旧字旧仮名における意味役割付与システムとしてのasapy+UniDic2UD | yasuokaの日記 | スラド

                                                        昨日の日記の続きだが、asapyにUniDic2UDを繫いでみた。UniDic2UDにもCaboChaエミュレーションの機能はあるし、加えて旧仮名口語UniDicで旧字旧仮名が扱えるからだ。 $ python3 >>> from asapy.ASA import ASA >>> asa=ASA("qkana") >>> asa.parse("其國を治めんと欲する者は先づ其家を齊ふ") >>> asa.selectOutput() sentence: 其國を治めんと欲する者は先づ其家を齊ふ ID: 0 其 link: 1 type: elem frame: 1-対象-Arg1 tense: PRESENT sentelem: ADNOMINAL 0    其    ソノ    其の    連体詞            O ID: 1 國を link: 2 type: elem main: 国

                                                        • 「UniDic」国語研短単位自動解析用辞書|UniDicとは

                                                          UniDicとは、国立国語研究所の規定した斉一(せいいつ)な言語単位(短単位)と、 階層的見出し構造に基づく電子化辞書の ① 設計方針 および、その実装としてのリレーショナルデータベース ② UniDicデータベース と、そのデータベースからエクスポートされた短単位をエントリ(見出し語)とする、形態素解析器MeCab用の解析用辞書 ③ 解析用UniDic の総称です。 本サイトでは ③の解析用UniDic を公開・配布しています。 解析用UniDicは短単位をMeCab辞書のエントリとしているため、 UniDicを使った形態素解析は「短単位(自動)解析」とも呼ばれます。 UniDicの第一の目的は、国語研で構築しているコーパスアノテーションを支援することです。 国語研所内にあるUniDicデータベースは、同じく所内のコーパスのデータベースと参照関係にあり、 完成したコーパスデータベース中の

                                                          • UniDic2UDによるCaboChaエミュレータをWindowsで動かすには | yasuokaの日記 | スラド

                                                            一昨日の日記で公開したUniDic2UDを、MS Windowsで動かしてみたい、との御要望をいただいた。Windows 10ならば、WSLにDebianかUbuntuを載せるところだが、Windows 8では動かない。公式のPythonモジュールだと、コンパイラとかを別だてでインストールしなきゃいけないので、どこかでしくじる可能性が高い。となるとCygwinかな、というのが私(安岡孝一)なりの答で、まあ、Cygwinなら64bit版でも32bit版でも大丈夫なので、以下では64bit版でインストール手順を説明する。 まずは、Cygwin 64bit版のインストール。公式サイトから「setup-x86_64.exe」をダウンロードして実行する。あとは基本的に「次へ」で進めていけばいいが、「Choose A Download Site」の画面にきたら、どこか日本(jp)のhttpサイトを選ぶ

                                                            • UniDic2UDによるCaboChaエミュレータと本物のCaboChaとの違い | yasuokaの日記 | スラド

                                                              昨日の日記で公開したUniDic2UDによるCaboChaエミュレータだが、もちろん本物のCaboChaとは挙動が違う。違う点は様々なのだが、もっとも大きな違いは、複数回parseを呼び出した際の挙動だろう。まずは、UniDic2UDのCaboChaエミュレータで「吾輩は猫である」と「名前はまだ無い」を係り受け解析してみよう。 % python3 >>> import unidic2ud.cabocha as CaboCha >>> c=CaboCha.Parser() >>> s1=c.parse("吾輩は猫である") >>> s2=c.parse("名前はまだ無い") >>> print(s1.toString(CaboCha.FORMAT_TREE)) 吾輩は-D 猫である EOS >>> print(s2.toString(CaboCha.FORMAT_TREE)) 名前は---D

                                                              • spaCy + UniDic-COMBOの単語間係り受けと文節間係り受け | yasuokaの日記 | スラド

                                                                UniDic-COMBOにbunsetu_spansとbunsetu_spanを実装したのだが、使い方が分かりにくいとの御意見をいただいた。私(安岡孝一)個人としては、文節間係り受けより単語間係り受けの方を使ってほしいのだが、この際なので、spaCyのDoc・Span・Tokenに、日本語の文章・文節・単語が、どう実装されているかを紹介しておこう。 >>> import unidic_combo >>> nlp=unidic_combo.load("gendai") >>> doc=nlp("私の名前は中野です。") >>> print(doc,type(doc),len(doc)) 私の名前は中野です。 <class 'spacy.tokens.doc.Doc'> 7 UniDic-COMBOの係り受け解析結果は、spaCyのDoc(文章)として返される。単語(Token)の配列だと考え

                                                                • 形態素解析モジュールfugashiが「軽量版UniDic」を伴ってリリース | yasuokaの日記 | スラド

                                                                  fugashi 0.1.12が正式にリリースされた、との御連絡をいただいた。今回のリリースの目玉は、unidic-liteという「軽量版UniDic」がバンドル可能になったことだ。試しにGoogle Colaboratoryで「國境の長いトンネルを拔けると、そこは雪國であった。」を形態素解析してみよう。 !pip install 'fugashi[unidic-lite]' import fugashi tagger=fugashi.Tagger() doc=tagger.parse("國境の長いトンネルを拔けると、そこは雪國であつた。") print(doc) 國    クニ    クニ    国    名詞-普通名詞-一般            0 境    サカイ    サカイ    境    名詞-普通名詞-一般            2 の    ノ    ノ    の    助

                                                                  • unidic2udと現代書き言葉UniDicで読む『吾輩は猫である』 | yasuokaの日記 | スラド

                                                                    昨日リリースした unidic2udの力量を見るべく、現代書き言葉UniDicとjapanese-gsdで『吾輩は猫である』を読んでみた。まずは、unidic2udのインストールと、辞書のダウンロード。 % pip3 install unidic2ud % python3 -m unidic2ud download.unidic gendai % python3 -m unidic2ud download.udpipe japanese-gsd かなり時間がかかると思うが、インストールがうまくいったら、言語処理100本ノック2015の『吾輩は猫である』から、「バイオリンを始める」文、すなわち「バイオリン←obj─始める」という係り受けを、unidic2udで探してみよう。 % python3 >>> import unidic2ud,urllib.request >>> from iter

                                                                    • 現代書き言葉/現代話し言葉UniDic v3.1.0に対応したUniDic2UD 2.8.1をリリース | yasuokaの日記 | スラド

                                                                      現代書き言葉UniDicと現代話し言葉UniDicが、いずれもv3.1.0にバージョンアップされた、との連絡をいただいた。早速、私(安岡孝一)の方でもUniDic2UDを2.8.1にバージョンアップして、これらの新しいUniDicを使えるようにした。現代書き言葉UniDicの方を、Google Colaboratoryで使ってみよう。 !pip install 'unidic2ud>=2.8.1' import unidic2ud unidic2ud.download("gendai") nlp=unidic2ud.load("gendai") doc=nlp("望遠鏡で泳ぐ彼女を見た。") print(doc) # text = 望遠鏡で泳ぐ彼女を見た。 1    望遠    望遠    NOUN    名詞-普通名詞-一般    _    2    compound    _    S

                                                                      • 富岳でSuPar-UniDicをムリヤリ動かすには - Qiita

                                                                        昨日の記事で書いたSuPar-UniDicによる係り受けプログラムを、スーパーコンピュータ「富岳」のPyTorch-1.13.0で動かすことを試みた。しかし、富岳のPyTorch-1.13.0はコンパイル時にUSE_LAPACK=1を指定していないらしく、torch.nn.init.orthogonal_()まわりで File "/vol0004/apps/oss/spack-v0.19/opt/spack/linux-rhel8-a64fx/fj-4.8.1/py-torch-1.13.0-glqavnhys6plsjklw2bp3tkkh5ysyrqh/lib/python3.10/site-packages/torch/nn/init.py", line 484, in orthogonal_ q, r = torch.linalg.qr(flattened) RuntimeErro

                                                                          富岳でSuPar-UniDicをムリヤリ動かすには - Qiita
                                                                        • spaCy+Transformers日本語係り受け解析モデルja_gsd_bert_wwm_unidic_lite(仮)リリース | yasuokaの日記 | スラド

                                                                          昨日リリースされたspaCy 3.1.0向けに、Transformersを併用した日本語係り受け解析モデルja_gsd_bert_wwm_unidic_liteが(仮)リリースされた、との連絡をいただいた。早速、Google Colaboratoryでdeplacyに繫いでみよう。 !pip install https://huggingface.co/hiroshi-matsuda-rit/ja_gsd_bert_wwm_unidic_lite/resolve/main/ja_gsd_bert_wwm_unidic_lite-any-py3-none-any.whl !pip install fugashi unidic-lite deplacy import pkg_resources,imp imp.reload(pkg_resources) import spacy nlp=spa

                                                                          • UD-KanbunとUniDic2UDをCygwinで使うためのmecab-cygwin64 | yasuokaの日記 | スラド

                                                                            古典中国語(漢文)向け係り受け解析エンジンUD-Kanbunを、Cygwinで使えるようにできないか、との御相談を受けたので、私(安岡孝一)なりに何とか戦ってみた。何とかなるにはなったのだが、64ビット版Cygwinでpython37-pipとpython37-develが必要なだけでなく、gcc-g++もgitもswigもCygwin64に入れておく必要がある、という物凄い事態になってしまった。インストールもちょっと手間で $ cd /tmp $ git clone https://github.com/KoichiYasuoka/mecab-cygwin64.git $ cd mecab-cygwin64 $ sh -x ./install.sh /usr/local $ pip3.7 install udkanbun $ echo 望遠鏡で泳ぐ彼女を見た | mecab 望遠鏡  名

                                                                            • MultiCOMBOとGuwenCOMBOとUniDic-COMBOのAllenNLP 2.x対応 | yasuokaの日記 | スラド

                                                                              多言語係り受け解析ツールを試作し、MultiCOMBOと名付けてリリース(仮)した。アイデアとしてはCamphr-Udifyをマネたものだが、頑張ってspaCy v3やAllenNLP 2.xやTransformers 4.x対応をおこなったので、そこそこ現代的なツールになったと思う。 このspaCy v3対応の際に、ちょっとしたバグを見つけたので、pull requestを書いたところ、無事にspaCy v3.0.3に取り込まれた。一方、AllenNLP 2.x対応の際にも、ちょっとしたバグを見つけたので、やはりpull requestを書いたのだが、AllenNLPのメンバーは対応したくなさそうだ。このバグは、どうもAllenNLP 1.4.0で仕込まれたバグのようなので、現時点でMultiCOMBO・GuwenCOMBO・UniDic-COMBOを使う際には、AllenNLPを1.3

                                                                              • 青空文庫DeBERTaモデルdeberta-base-japanese-unidicリリース | yasuokaの日記 | スラド

                                                                                昨日の日記でも書いたが、JGLUEのJSQuADは、日本語DeBERTa(V2)モデルのDebertaV2TokenizerFastを受け付けてくれないようだ。で、多少なやんだあげく、日本語DeBERTa(V2)モデルのトークナイザをBertJapaneseTokenizerに入れ換えて、deberta-base-japanese-unidicを作ってみた。普通に12層・隠れサイズ768・12ヘッド・トークン幅512としたが、7772556文3億字(青空文庫データ2.37億字+異体字増量分0.64億字)をNVIDIA A100-SXM4-40GBで728679ステップ(64バッチ)学習させたところ、17時間21分かかってしまった。Google Colaboratory (GPU)で、JSQuADに挑戦してみよう。 !test -d transformers-4.19.2 || git cl

                                                                                • UniDic2UDによる単語間の係り受けと二文節間の係り受け | yasuokaの日記 | スラド

                                                                                  昨日の日記に続いて、UniDic2UDにも縦書きツリーを実装してみた。これで、日本語における単語間の係り受け解析と、二文節間の係り受け解析が、どう異なっているか、少しはわかりやすくなると思う。まずは、最新版のUniDic2UDをインストール。UDPipeの言語モデルjapanese-gsdと、旧仮名口語UniDicも、ダウンロードしておこう。 % pip3 install 'unidic2ud>=1.4.4' % udcabocha --download=japanese-gsd % udcabocha --download=qkana % python3 >>> import unidic2ud >>> qkana=unidic2ud.load("qkana") >>> s=qkana("未だ義にして其君を後にする者は有らざるなり") >>> print(s.to_tree()) 未だ