並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 48件

新着順 人気順

係助詞の検索結果1 - 40 件 / 48件

  • SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記

    はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika(スイカ)とした。 使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:

      SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
    • 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s

      追々記(1/23, 16:55): ちょっと自分でも気になる箇所があったので末尾に試訳Dを足しました。そちらにお進みください。 * 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す話です。 www.asahi.com 大したことのない歌です。でもね、こういうのが大切なんですよ。 かきおくもかたみとなれやふでのあと我はいずこのうらにすむとも 品詞分解します。 かきおく:カ行四段動詞「書き置く」連体形。係助詞「も」の上は連体形です。 も:不確かさ、不安、懸念の係助詞。AかもしれないしBかもしれないしそれ以外かもしれない。 かたみ:名詞。「形見」。直観的には「片身」(かたみに袖をしぼりつつ)にも掛けているかなとも思いますが、この方の他の歌を見てみないと何ともいえません。また、「記念パピコ」(後述)。 と:格助詞 なれ:ラ行四段活用動詞「なる」命令形。なってしまえ。 や:詠嘆、強意の係助

        朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s
      • WebAssemblyの形態素解析器GoyaをRustで作った

        Goyaという形態素解析器を Rust で作りました。本記事は利用者目線で Goya の紹介をします。技術的な詳細については別途記事を書きます。 形態素解析とは? (このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください) 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 — 形態素解析 - Wikipedia 例えば早口言葉の”すもももももももものうち”(スモモも桃も桃のうち)という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ

          WebAssemblyの形態素解析器GoyaをRustで作った
        • 三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ

          はじめに 読書案内 庵功雄 (2003)『『象は鼻が長い』入門』 益岡隆志 (2003)『三上文法から寺村文法へ』 金水敏 (1997)「4 国文法」『岩波講座 言語の科学 5 文法』 そのほか 寺村秀夫はどのように三上章の後継者か 「主語」の議論にフォーカスし過ぎるのは三上文法の過小評価では 「主語」に関する辞書の記述 日本語文法事典 日本語学大辞典 中間まとめ:三上の扱い おまけ1:「は」とか「主題」とか 「は」と主題の話なら山田孝雄も 「主題」を表す手段は様々な言語に様々な形である この辺りの読書案内 おまけ2:三上文法に関連するあれこれへの私見 主語廃止論と学校文法 ピリオド超え 三上の「土着文法」は日本語特殊論の対極にある 生成文法は主語を絶対視しているか 「「は」は主題」で本当に分かりやすいか おわりに 書いてみて 研究者・専門家のみなさま 引用文献(三上の著書を除く) 長いで

            三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ
          • このブログの全エントリで学習した極小規模言語モデルを作った - Copilot試してみた日記 - きしだのHatena

            ブログの全エントリを読み込むコード作ったので、とりあえずこれで学習して極小規模言語モデルを作ったら面白かろう、とやってみました。 というとかっこいいけど、まあ形態素解析して続く単語の頻度を覚えておいて、頻度に応じた単語をつなげていうという、Twitter老人会の方ならご存じの圧縮新聞ですね。圧縮きしだのHatenaか。 まあ、ここではてなブログのアーカイブを読み込むコードを書いたので、これで何かしたら面白かろうなと。 GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena それで、以前 圧縮新聞ぽいものを作っていたので、これを改めてはてなブログをデータに作ってみた感じです。 Igoという形態素解析器をつかって圧縮新聞っぽいものを作ってみる - きしだのHatena 圧縮新聞のアカウントは凍結されていますが、雰囲気はこちらを。 圧縮新聞さん迷言集

              このブログの全エントリで学習した極小規模言語モデルを作った - Copilot試してみた日記 - きしだのHatena
            • 形態素解析器をSwiftで試作してみた|Cotarou

              開発方針 形態素解析器を開発するにあたり、既存のコスト計算済みのモデルを使用することも可能だったのですが、今回は実用的な形態素解析器を作るというよりは、Swiftの習得が目的であったため、できるだけフルスクラッチしてしまおうと思いました。誰に迷惑をかけるわけでもないので。 ゴールまでの道のりは、最終的に以下になりました。開発中は試行錯誤しながらだったので、前後しながら開発していました。先に進んでは、別のところに戻って再実装・テストを繰り返していました。 ・辞書 ・ダブル配列 ・学習データ ・ラティス構築 ・コスト計算 ・形態素予測辞書 形態素解析器を使用したことがある人は、ご存知だと思いますが、形態素解析器自体は辞書を内部で保持しているわけではないので、辞書を変更して使用することができます。よく使用される辞書としてはIPAdic・NEologd・UniDicなどがあり、どの辞書を選ぶかはそ

                形態素解析器をSwiftで試作してみた|Cotarou
              • ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki

                本記事は,自然言語処理 Advent Calendar 2019 - Qiitaの1日目の記事です. はじめに 今回の記事では,去年末ごろからPythonとCythonだけでチマチマ作った形態素解析器Taiyakiをベースに,形態素解析器の解説をしようかなと思います.この形態素解析器の完成はまだ程遠いんですが,ひとまず簡単な形態素解析はできるようになったのでここでお披露目しておきます.本記事は実質,Double-Arrayの辞書引きと最小コスト法に基づく形態素解析器の解説記事となっています. なぜ今更に形態素解析器を作ったかと問われると困ってしまうのですが,NLPerなら1つぐらい自作しても良いのかなってことと.形態素解析がどう動いているかって意外と知らなかったのが動機です.解説内容間違えてる可能性はあるので,見つけた方はコメント欄でご指摘いただけると嬉しいです. 作っているものは下記リポ

                  ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki
                • 先生、その俳句の「切れ」はそうじゃありません|こばると

                  この記事は「言語学な人々 Advent Calendar 2021」の4日目の記事として書かれました。 はじめに俳句を始めた。2020年、高3の夏だった。 高2までは理系の文化部だったけれど、うちの高校にそもそも部活と呼べるほどの活動実態のある文芸の部活はほぼなく、俳句部なんてもってのほか。校内に特に仲間もいない中、ひとりで始めた、ある意味趣味らしい趣味だった。 校内に仲間がいないと書いたけど、本当はその頃、校内にもほとんどいられなかった。少なくとも、当時の僕が期待(依存?)していたよりは。言わずと知れたコロナ禍で、高校や塾は分散登校から徐々に類のないほぼ全面オンラインの学習指導に移行し始めた。誰もが手探りで、でもやるしかないから前に進む、そんな時期だった。 その「でも」が、僕にはなんだかどうしてもできなかった。ずっと同じ景色の自室に篭って、たまに体を鈍らせないように駅前を散歩して帰ってく

                    先生、その俳句の「切れ」はそうじゃありません|こばると
                  • JapanKnowledge版『日本国語大辞典』でテーマを探索しよう - ronbun yomu

                    この記事は「言語学な人々 Advent Calendar 2023」の17日目の記事です。 adventar.org 前置き 小学館『日本国語大辞典(第2版)』(以下、日国)の JapanKnowledge 版(以下、JK版日国)は、紙媒体にはない検索機能を備えています。*1 JapanKnowledge Lib 使い方ガイド JapanKnowledge 全体を対象とした「詳細(個別)検索」でも以下の検索を行うことができますが、 見出し検索 or 全文検索 AND, OR, NOT検索 完全一致、前方一致、後方一致、部分一致 この詳細検索の対象を『日国』に限定すると、検索範囲(見出し or 全文 or 用例 or …)をさらに細かく設定できたり、品詞で絞ったりできるようになります。 方法は以下の通り。 「詳細(個別)検索」にマウスオーバーして「日本国語大辞典」 または、「詳細(個別)検索

                      JapanKnowledge版『日本国語大辞典』でテーマを探索しよう - ronbun yomu
                    • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

                      この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                        wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
                      • 【言葉遊び空論12】完全ダジャレ・畳文|にぅま

                        「押し倒した」 という語がある 一見すれば 何でもない 言葉ではあるが 「おしたおした」と かな表記に直すと 興味深い事が 判明する ”おした”という 文字列を そのまま2度 繰り返すだけで 一文として成立しているのである この事に 気付いた際 ただならぬ 感動を憶えた という体験の持ち主は 筆者を除いては そう居られないだろう それは さて置き このような 特定の文字列を そのまま2度 繰り返して 成立させた文章を 完全ダジャレもしくは畳文と呼ぶ 似たもので 畳語を 思い浮かべる方も おられよう 畳語とは ある文字列の 繰り返しで 構成される”語”を言い 複数・継続・強調の表現(例:山々・休み休み・あるある)の他 オノマトペ表現(例:コロコロ・ギラギラ)で 使用される合成語である 繰り返された文字列が 一単語となるのが「畳語」であり 一文・文章となるのが「畳文」すなわち「完全ダジャレ」(

                          【言葉遊び空論12】完全ダジャレ・畳文|にぅま
                        • Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator

                          - はじめに - RustでNLP、機械学習どこまでできるのか試した時のメモ。 Pythonどこまで脱却できるのか見るのも兼ねて。 コードは以下に全部置いてある。 GitHub - vaaaaanquish/rust-text-analysis: rust-text-analysis - はじめに - - 形態素解析 - neologd lindera - Text Processing、Embedding - - XGBoost - - 実験 - - おわりに - - 形態素解析 - Rustの形態素解析実装を調べると、lindera-morphology/lindera を使うのが有力候補となりそうである。sorami/sudachi.rs や agatan/yoin 、 nakagami/awabi のような実装もあるがメンテは止まっている様子である。 linderaメンテナのブログ

                            Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator
                          • いつも数えてる - 「だるころ」(だぁ~るまさんがこぉ~ろんだ♪)

                            ●組み合わせは無限● ●ただ素直に読む● 今回も訪問して下さりありがとうございます。 今回は教えてもらったことを素直に書きます。 ●五・七・五を楽しむ。 俳句は五・七・五の語句をリズムよく楽しむのが大切です。 この五・七・五を「拍子」と言ったりします。 何を詠んでも「五文字・七文字・五文字」で拍子を楽しむのが基本です。 「五文字・七文字・五文字」が印象に残る。軽快で気持ちいいリズムなら、とってもいい俳句になるって感覚です。(音楽と似てると思います) ●季語は一つ必要! 一句に対して季語を一つ詠むと言う基本ルールが有ります。 季語とは、四季それぞれを表す語句の事です。 (春)梅 梅一輪 一輪ほどの あたたかさ    服部嵐雪 (夏)夏の蝶 夏の蝶 日かげ日なたと 飛びにけり   高浜虚子 (秋)名月 名月を とってくれろと 泣く子かな  小林一茶 (冬)冬木立 斧入れて 香におどろくや 冬木

                              いつも数えてる - 「だるころ」(だぁ~るまさんがこぉ~ろんだ♪)
                            • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                              前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                              • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

                                概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

                                  apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
                                • 象は鼻が長い 三上文法  文という枠を越える言葉 - こうへいブログ 京都案内と文章研究について

                                  主語廃止論 日本語の基本的な関係は「主語―述語」ではなく、「主題―解説」であるという考え方。 それは、日本の文法研究の発展に伴い、多くの学者たちに支持されるようになりました。 その理論を広く世に知らしめた存在が、高校の数学教師から国語学会へと転じてきたという、三上章さん(1903~1971)という文法学者です。 独創的な見解で知られる三上さんは、自分の意見に異を唱える者には公開の場で徹底的に議論を挑むなど、妥協を許さない性格でした。 そのために、当時の国語学会の権威者たちからは完全に異端児扱いされていたそうなんです。 ですが一方で、若手・中堅の研究者たちからは熱烈な支持を受け、時代の流れに沿うようにして、三上理論を引き継ぐ者たちは急速に増えていったんですね。 象は鼻が長い ―日本文法入門 (三上章著作集) 作者:三上章 くろしお出版 Amazon 三上さんの名を一躍広めることとなったのが、

                                    象は鼻が長い 三上文法  文という枠を越える言葉 - こうへいブログ 京都案内と文章研究について  
                                  • 本多勝一「日本語の作文技術」のまとめ

                                    本多勝一「日本語の作文技術」朝日文庫 2015 原則集 原則の前提となる観察(第二章) わかりにくい文章の実例を検討してみると,最も目につくのは,修飾する言葉とされる言葉とのつながりが明白でない場合である.原因の第一は,両者が離れすぎていることによる. 日本語の大黒柱は述語であって,いわゆる「主語」ではない. 修飾語の語順の原則(第三章) 節(一個以上の述語を含む複文)を先にして,句(述語を含まない文節)を後にする. 長い修飾語ほど先にして,短いほど後にする. 大状況・重要内容ほど先にする. 親和度(なじみ)の強弱により配置転換する. 節を先にして,句を後にする. 「厚手の白い横線の引かれた紙」ではなく「横線の引かれた厚手の白い紙」とする 「速く止まらずに走る」ではなく「止まらずに速く走る」とする. 長い修飾語ほど先にして,短いほど後にする. 「明日は雨だとこの地方の自然に長くなじんできた

                                    • 複雑な文の流れを滑らかに結合させる潤滑油 それは抽象名詞と形式名詞 - こうへいブログ 京都案内と文章研究について

                                      内の関係と外の関係 前回に引き続き、今回も連体修飾節を使った文章表現にこだわりながら、その本質を分析していきたいと思います。 たとえば、指にルビーの指輪をつけた(女優)という文を例にすると、名詞(女優)を詳しく説明・限定し、修飾しているのが(指にルビーの指輪をつけた)という連体修飾節と呼ばれる成分になります。 このような連体修飾節を使った表現方法には、じつは、二つの意味合いを持つ種類があるんですね。 A)さんまを焼く(シェフ)がいる。 B)さんまを焼く(匂い)がする。 「さんまを焼く」という連体修飾節がAでは(シェフ)を、Bでは(匂い)という名詞を修飾しています。 「さんまを焼く」という修飾節は表面上では全く同じ役割を果たしているように見えますが、そこに含まれた意味合いは大きく異なるのです。 Aの文は、シェフがさんまを焼く。という文と対応させることが出来ます。 名詞「シェフ」は、連体修飾節

                                        複雑な文の流れを滑らかに結合させる潤滑油 それは抽象名詞と形式名詞 - こうへいブログ 京都案内と文章研究について  
                                      • MacにMeCabとNEologdをインストールして、形態素解析する

                                        形態素解析を行う MeCab + IPA辞書で『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載という文を形態素解析してみます。 $ mecab 『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載 『 記号,括弧開,*,*,*,*,『,『,『 鬼 名詞,一般,*,*,*,*,鬼,オニ,オニ 滅 名詞,一般,*,*,*,*,滅,メツ,メツ の 助詞,連体化,*,*,*,*,の,ノ,ノ 刃 名詞,一般,*,*,*,*,刃,ハ,ハ 』 記号,括弧閉,*,*,*,*,』,』,』 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 吾 名詞,一般,*,*,*,*,吾,ワレ,ワレ 峠 名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ

                                          MacにMeCabとNEologdをインストールして、形態素解析する
                                        • MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】

                                          こんにちは!monachan_papaです。 前回までで、形態素解析の基本的なことについてやりました。 男は黙ってサッポロビールを形態素解析してみよう!【Pythonによる自然言語処理超入門】 川端康成『雪国』の冒頭を形態素解析してみよう!【Pythonによる自然言語処理超入門】 さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは? 形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男 名詞,一般,*,*,*,*,男,オトコ,オトコ

                                            MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】
                                          • tiny-segmenter・kuromoji.js : JavaScript 製の形態素解析ツールを2つ使ってみた - Corredor

                                            形態素解析ツールというと MeCab が有名だが、コレはライブラリをマシンにインストールし、Python・Ruby・Java・Perl・Node.js 言語などにバインディングするライブラリを導入することで使える。機能的には十分便利だが、導入手順や言語の制約があり、ライブラリのサイズも大きいので、ウェブアプリとして動かす時は若干やりづらいところもある。 そこで、MeCab 以外に形態素解析ツールがないか、中でも JavaScript 製だったりして、ブラウザオンリーで使えるようなライブラリがないか、探してみた。 tiny-segmenter kuromoji.js 軽さ優先なら tiny-segmenter・MeCab に近い品詞情報も知りたければ kuromoji.js tiny-segmenter 早速見つけたのは、TinySegmenter というライブラリ。JavaScript 製

                                              tiny-segmenter・kuromoji.js : JavaScript 製の形態素解析ツールを2つ使ってみた - Corredor
                                            • 奥津敬一郎 著「(ボクハ ウナギダ)の文法」 長い間抱えていた疑問を解き明かしてくれた一冊 - こうへいブログ 京都案内と文章研究について

                                              常に例外がつきまとう法則 日本語の文法というのは本当に不思議なモノで、辞書のレベルでは決定しきらない例外が、それこそたくさん出てきます。 たとえば、次に出てくる文のような、動詞の格支配の例を見てみてください。 A)鯛を刺身に作る。   ?鯛を作る。 B)一人娘を嫁に取る。  ?一人娘を取る。 このA、B文では「作る」と「取る」という動詞が格体制をとっていますが、いずれも「鯛ヲ」「一人娘ヲ」というヲ格との結びつきは、間接的なものとなっているんですね。 「刺身二」「嫁二」という、二格と動詞が先に結びつき、その全体に対してヲ格が結びついているのだと、例文が掲載されている文法書には書かれています。 「鯛を【刺身に作る】」・「一人娘を【嫁に取る】」というように、ヲ格の存在はあくまでも二格の存在が前提されているということなんです。 本当にそうなのでしょうか? 本来、日本語の動詞文は述語を中心として構成

                                                奥津敬一郎 著「(ボクハ ウナギダ)の文法」 長い間抱えていた疑問を解き明かしてくれた一冊 - こうへいブログ 京都案内と文章研究について  
                                              • Sudachiで馬謖を切る: 形態素解析の可視化とユーザー辞書による制御

                                                TL;DR 形態素解析は意図しない結果になることがあるし、唯一の正解があるとも限らない ViSudachiで解析の内部構造を可視化し、なぜその結果に至ったかを確認できる ユーザー辞書により、解析をある程度コントロールできる 馬謖を切る 遥か昔の中国に生きた諸葛孔明という人は、重用していた部下の馬謖(ばしょく)が命令に従わなかったため、規律を遵守し泣いて斬罪に処したと言われています。 さて、形態素解析器Sudachiで 馬謖 を切ってみると、どうなるでしょうか。 複数単語には分割されないようです。では、もしこれを 馬 / 謖 の2単語へと切りたい時には、どうしたらいいでしょうか? 形態素解析の誤り 馬謖 の例はどうでもいいことだと思うかもしれませんが、形態素解析ではたまに誤解析が起こります。 例えば形態素解析界で知られる話として 魔法少女リリカルなのは というアニメ作品名の解析があります。こ

                                                  Sudachiで馬謖を切る: 形態素解析の可視化とユーザー辞書による制御
                                                • GiNZA入門 (1) - 事始め|npaka

                                                  「GiNZA」の使い方をまとめました。 ・GiNZA 4.0.51. GiNZA「GiNZA」は、オープンソースな日本語の自然言語処理ライブラリです。最先端の機械学習技術を取り入れた自然言語処理ライブラリ「spaCy」をフレームワークとして利用しており、トークン化処理にオープンソースな形態素解析器「SudachiPy」が使われています。 ・文境界解析 ・形態素解析 ・係り受け解析 ・固有表現抽出 ・文節抽出2. GiNZA のインストール(1) 「Google Colab」で以下のコマンドを実行。 !pip install -U ginza(2) メニュー「ランタイム → ランタイムを再起動」で「Google Colab」を再起動。​ 3. 文境界解析「文境界解析」は、文章を文の境界を検出して、文に分解する処理です。 import spacy nlp = spacy.load('ja_gi

                                                    GiNZA入門 (1) - 事始め|npaka
                                                  • 日本語基礎講座 三上文法入門  その裏に隠された真実 - こうへいブログ 京都案内と文章研究について

                                                    一般向けにわかりやすく解説 1952年、日本語文法にとってまさに画期的な論説と評判になった「現代語法序説」が世に出ました。著者は、当時の学界の異端児と呼ばれた三上章さんです。 文法学者として独創的な見解を示す三上さんは、その舌鋒鋭い議論の仕方が災いしてか、国語学界に敵も多かったのですが、その理論を受け継ぐ研究者は増え続け、現在では三上さんの功績は高く評価されているんですね。 人の意表をつくような内容が魅力的な三上さんの著書ですが、ほとんどが「一般向き」に書かれたものではなく、内容を理解するには非常に難易度が高いものとなっています。 だから、その独創的な理論を学び吸収したいのに、日本語の基本的構造など、ある程度の文法知識がないと専門用語も多くて、私なんかは、なかなかついていくのが難しいのです。 そこで今回ご紹介するのが、山崎紀美子さんの書かれた「日本語基礎講座―三上文法入門」なんですね。 日

                                                      日本語基礎講座 三上文法入門  その裏に隠された真実 - こうへいブログ 京都案内と文章研究について  
                                                    • ワードクラウド

                                                      はじめに ワードクラウド(word cloud)とは頻出語を頻度に比例する大きさで雲のように並べたものです。 英語のワードクラウドは wordcloud ライブラリで簡単に描けます。あらかじめ pip install wordcloud などとしてインストールしておきます。テキストとしては何でもいいのですが、ここでは WordCloud() の説明文(docstring)を用いてみます: from wordcloud import WordCloud text = WordCloud.__doc__ wc = WordCloud(width=480, height=320) wc.generate(text) wc.to_file('wc1.png') 日本語はこのように簡単にはいきません。まずは単語に分解しなければなりません(形態素解析)。そのためのツールとして、昔から有名なMeCab(

                                                      • 沖森卓也『日本語全史』を活用するために - ronbun yomu

                                                        沖森卓也(2017)『日本語全史』ちくま新書は、「学部生にリファレンスとしてとりあえず持っておいてほしい本」として抜群のコストパフォーマンスを誇る。 www.chikumashobo.co.jp が、広い分野・時代に亘って記述することの弊害か、特に、著者の直接的な専門ではない(失礼?)中世以降の文法の記述については情報が古いものが目につく*1。 そういうわけで、以下、特に文法の項目について、これは今は通説ではないとか、他にこういう説があるとか、記述が不十分であるとか、そういうことを勝手に補訂して、引くべき例もついでに引く。 外部リンクは、リポジトリのあるものはリポジトリへ、ないものは国語研DBなどへ。教科書・参考書として使っている方の、勝手なサポートページとしてもどうぞ。 [所謂上代特殊仮名遣について]通説では、このような区別をそのまま母音の違いに求め、母音が八つあったと説かれることが多い

                                                          沖森卓也『日本語全史』を活用するために - ronbun yomu
                                                        • 前処理、前処理、そして、前処理 (自然言語処理:日本語編)|narudesu

                                                          こんにちは!エンジニアのnaruです。 ブラックフライデーも終わり皆さま何か良いものは買えましたでしょうか? 私はというと、9月10月とAppleの新製品とモニターに散財して懐が早くも氷点下になって消費欲が完全に満たされたのもあり、ブラックフライデーは何も響かなかったです笑 さて、そんな最近に至るまで業務でたまに日本語テキストの前処理を行うことがあるのですが、その度に「あれ、これどうやるんだっけ・・・」となっていたので整理してみます。 「山田く〜ん、このデータ良い感じに前処理しといて〜」といきなり言われてしまった方になにか参考になれば幸いです。 前処理とは読んで字のごとく前処理とは、後続の処理をやりやすく、そして精度良くすることを目的とした必要不可欠かつ重要な処理です。 具体的な処理内容としては多岐にわたり、処理対象となる文章そのものの"クセ"や後続の処理への理解が求められるものの、時間が

                                                            前処理、前処理、そして、前処理 (自然言語処理:日本語編)|narudesu
                                                          • 桜花咲きかも散ると見るまでに・・・巻第12-3129 - 大和の国のこころ、万葉のこころ

                                                            訓読 >>> 桜花(さくらばな)咲きかも散ると見るまでに誰(た)れかも此所(ここ)に見えて散り行く 要旨 >>> まるで桜の花が咲いてすぐに散っていくように、誰も彼も、現れたかと思うとすぐまた散り散りになっていく。 鑑賞 >>> 『柿本人麻呂歌集』から「羈旅発思(旅にあって思いを発した歌)」。「咲きかも」「誰れかも」の「かも」は疑問の係助詞。旅先の往来に現れては消えていく人の中に妻の幻影を見ている歌、あるいは旅先での出会いと別れを歌ったもので、若い人麻呂の歌だろうとされます。この歌は、のちに蝉丸の「これやこの行くも帰るも別れては知るも知らぬも逢坂の関」(『後撰集』)に引き継がれています。 『歌よみに与ふる書』 正岡子規が明治31年に書いた『歌よみに与ふる書』の現代語訳です。 ―― 仰せの通り、近来和歌は一向に振るわない。正直に申せば『 万葉集』以来、源実朝以来一向に振るわない。実朝という人

                                                              桜花咲きかも散ると見るまでに・・・巻第12-3129 - 大和の国のこころ、万葉のこころ
                                                            • SudachiPyでユーザー辞書を使う - Re:ゼロから始めるML生活

                                                              気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が使えるようになったようです。 github.com ということで、今回はそれを使ってみます。 SudachiPyのインストール ユーザー辞書 ユーザー辞書を作成 ユーザー辞書をビルド sudachi.jsonにユーザー辞書を指定 使ってみる Before After Dockerを使ってやってみる Dockerfile 形態素解析 感想 SudachiPyのインストール github.com 普通にReadmeに書いてあるとおりにインストールを進めます。 とりあえずインストールしてみます。 すでに、古いSudachiが

                                                                SudachiPyでユーザー辞書を使う - Re:ゼロから始めるML生活
                                                              • 【Python】形態素解析エンジン MeCabの使い方

                                                                自然言語処理(NLP)で用いられる日本語の形態素解析エンジンとして、MeCabが知られています。 本記事では、Mecabを使った日本語文章の形態素解析について、 Linux(Ubuntu)へのMeCabおよび辞書のインストールと使い方の基本 Pythonバインディング(mecab-python3モジュール)の使い方 を具体例を挙げて解説します。 Pythonバインディングのみ確認したい場合はこちらからご参照ください。 MeCabとは 日本語の形態素解析のためのツールです。下記は公式サイトより抜粋 MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional R

                                                                  【Python】形態素解析エンジン MeCabの使い方
                                                                • 【言葉遊び空論18】二義文 ~ダブルミーニングの作文~|にぅま

                                                                  漫画家:梶原一騎の代表作『巨人の星』 このタイトルにおける 「巨人」は 「巨人軍」を指すが 「星」は 主人公の「名前(星飛雄馬)」と 「象徴・スター選手」の 2通りの意味を 踏まえている 即ち 「巨人軍に所属する星という人物」 と 「巨人軍を象徴するスター選手」とを 二重に織り込んでいる 表現となっているわけだ こうした 一つの文で 異なる 二つの意味を 有するという例は 荒廃した都市においても その陰に身を潜める 野良猫の如く 広範に分布している 生徒・学生諸君であれば 特に 「試験終わった」と聞くと 二つの意味である事を 瞬時に察する事だろう(試験の日程が全て完了した/試験の出来具合が散々だった) これは極めて 日常に有り触れた 現象と言っても 過言ではない 簡単に 二通りの 異なった意味を持つ 言葉や文章 あるいは その仕組みを ダブルミーニング と呼ぶ これに加えて 実践女子大学教

                                                                    【言葉遊び空論18】二義文 ~ダブルミーニングの作文~|にぅま
                                                                  • 陳述・モダリティ論争について - 鶏肋断想

                                                                    第22回國學院大學日本語教育研究会 発表資料 2017年7月15日(土) 陳述・モダリティ論争と日本語教育 國學院大學兼任講師 大東文化大学非常勤講師 岡田 誠 はじめに 言語学・日本語学・日本語教育において、文の成立に関わる重要な概念として、「モダリティ」という概念がある。しかし、その捉え方には研究者によって捉え方が異なり、諸説ある。英語の場合には、must・may・canなどの法助動詞の表す意味をモダリティとするが、日本語の場合には規定が定まっていない。そのため、諸家によって用語の定義が異なるだけではなく、陳述・ムード・モダリティを区別しないこともある。日本語文法史からみると、文の成立をめぐって陳述論争があり、陳述論争の終息のあと、ムードやモダリティ論争が行われ、陳述論争が再び形を変えたポスト陳述論争であるとされ、近藤泰弘(1989)は、「日本語研究における『陳述論』とは、定動詞の定義

                                                                      陳述・モダリティ論争について - 鶏肋断想
                                                                    • ぬばたまの夜さり来れば・・・巻第7-1101 - 大和の国のこころ、万葉のこころ

                                                                      訓読 >>> ぬばたまの夜さり来れば巻向(まきむく)の川音(かはと)高しも嵐(あらし)かも疾(と)き 要旨 >>> 暗闇の夜がやってくると、巻向川の川音が高くなった。嵐が来ているのだろうか。 鑑賞 >>> 『柿本人麻呂歌集』から1首。「ぬばたまの」は「夜」の枕詞。「巻向川」は、巻向山から三輪山の北を西流し、初瀬川にそそぐ川。「嵐かも」の「かも」は、疑問の係助詞。「嵐」の原文は「荒足」で、「荒」は、本来は、始原的で霊力が強く発動している状態をあらわす言葉とされ、そういった意味がここにも感じ取られています。 この歌について斎藤茂吉は「無理なくありのままに歌われているが、無理がないといっても、『ぬばたまの夜さるくれば』が一段、『巻向の川音高しも』が一段、共に伸々とした調べであるが、結句の『嵐かも疾き』は、強く緊(し)まって、厳密とでもいうべき語句である」と言い、「人麿を彷彿せしむるものである」と

                                                                        ぬばたまの夜さり来れば・・・巻第7-1101 - 大和の国のこころ、万葉のこころ
                                                                      • 自然言語処理ライブラリGiNZAの解析結果を解りやすく表示してみた - Qiita

                                                                        はじめに この記事はspaCy/GiNZAを触ったことがない人を対象に、どのような解析結果が出力されるか把握し理解することを目的としています。 spaCy/GiNZAとは GiNZAはUniversal Dependencies(UD)に基づいたオープンソースな日本語処理ライブラリです。 spaCyというMITライセンスで商用レベルな自然言語処理フレームワークをベースに構築されています。 Pythonがインストールされていれば、簡単にインストールすることができます。 $ ginza 銀座でランチをご一緒しましょう。今度の日曜日はどうですか。 # text = 銀座でランチをご一緒しましょう。 1 銀座 銀座 PROPN 名詞-固有名詞-地名-一般 _ 6 obl _ SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP

                                                                          自然言語処理ライブラリGiNZAの解析結果を解りやすく表示してみた - Qiita
                                                                        • ja_GinzaとspaCy

                                                                          オープンソースの自然言語処理ライブラリの代表格はNLTKと呼ばれるフレームワークでした。近年、 Explosion AI 社が開発した Python/Cython で実装されたオープンソースの自然言語処理ライブラリ spaCy が公開されました。MIT ライセンスで利用が可能です。多くの言語をサポートし、学習済みの統計モデルと単語ベクトルが付属しています。研究用ではなく製品作成環境での本番利用を念頭に開発されていることも NLTK などの自然言語処理ライブラリと異なるところです。 また、最近までは spaCy の学習済みモデルには日本語に対応したものがなく、 バックエンドでMeCab を用いて形態素解析を行っていました。その結果、spaCy を利用して記述された自然言語処理のアプリケーションやライブラリでは日本語の文書を処理することができない状況が続いていました。 2019年4月に、リクル

                                                                          • 【入門】自然言語処理でできることをいくつかPythonで実装してみる!|スタビジ

                                                                            まずは、MeCabを使う環境を整えていきましょう! MeCabを使う場合はGoogle colaboratoryを使うのがオススメです。 Google colaboratoryであれば、以下のように記述してあげることでMecabを利用することができます。 !apt install aptitude !aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y !pip install mecab-python3==0.7Google ColaboratoryとはGoogleが無料で提供してくれているクラウド実行型のJupyter notebook実行環境です。 Googleのアカウントを持ってさえいれば誰でも使用することができ、開発環境を整える必要もなくPythonによる機械学習実

                                                                              【入門】自然言語処理でできることをいくつかPythonで実装してみる!|スタビジ
                                                                            • 文章作成に役立つ  読み手に違和感をあたえることなく自然に話題を切りかえる書き方 - こうへいブログ 京都案内と文章研究について

                                                                              有題文「は」と無題文「が」 日本語のセンテンスというのは、大きく二通りに区分けすることができます。 それは、名詞句に「は」がついて述べられる「有題文」と、名詞句に「が」がつく「無題文」というように大きく分かれるのです。 たとえば、 a ) 太郎は講演会に来た。 b) 見知らぬ男(✖は / が)講演会に来た。 という文で比較してみると、b)の「見知らぬ男」は、指示対象が特定されていない「不定」の名詞句なので「は」を使うことは出来ません。 「は」を使うには、a)のような有題文にみられる「太郎」のように、指示対象が決められた「定」の名詞句でなければならないんです。 そう、未知の対象に「は」を使うことは出来なくて、特定名詞として扱われているか、もしくは、そこまでの文脈によって読み手に認知されていないと「は」という係助詞は使用できないんですね。 無題文に見られる未知の指示対象には「が」が使用されます

                                                                                文章作成に役立つ  読み手に違和感をあたえることなく自然に話題を切りかえる書き方 - こうへいブログ 京都案内と文章研究について  
                                                                              • Elasticsearchで日本語の形態素解析を行おう。

                                                                                GET /damedame_analyzer/_analyzer { "analyzer": "standard", "explain" : true, "text": "私は、今年25歳になりました。昼は仕事をして夜はお酒を飲んでいます。趣味はバイクです。" } { "detail" : { "custom_analyzer" : false, "analyzer" : { "name" : "standard", "tokens" : [ { "token" : "私", "start_offset" : 0, "end_offset" : 1, "type" : "<IDEOGRAPHIC>", "position" : 0, "bytes" : "[e7 a7 81]", "positionLength" : 1, "termFrequency" : 1 }, { "token"

                                                                                  Elasticsearchで日本語の形態素解析を行おう。
                                                                                • RでMeCab(RcppMeCab)を利用して形態素解析する方法

                                                                                  RcppMeCabとは RcppMeCabは、Junhewk Kim氏が開発している、MeCabとRcppを利用して形態素解析するためのRパッケージです。 junhewk/RcppMeCab CRAN - Package RcppMeCab RcppMeCabによる形態素解析の例 形態素解析するための関数として、RcppMeCab::posとRcppMeCab::posParallelの2つがあります。両者はまったく同じ機能を提供するものですが、posParallelのほうは形態素解析の処理を内部的にマルチスレッドで回すことができます。posParallelが対応しているOS・プラットフォームならば、基本的にposParallelを使っておくほうが速いです。 渡す引数によって、以下のような出力を得ることができます。 require(RcppMeCab) sentence <- c("陽が照

                                                                                    RでMeCab(RcppMeCab)を利用して形態素解析する方法