並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 51件

新着順 人気順

係助詞の検索結果1 - 40 件 / 51件

  • のび太の「~かしら」は女性的? 言葉の歴史を紐解いてみた

    「ドラえもん」の作者として知られる藤子・F・不二雄氏の漫画について、「男性が『~かしら』という言葉を使っている印象がある」などと指摘するツイートが、2019年8月下旬に投稿され、話題になった。 投稿者のユーザーは、「女性的な言葉だと思うが、F先生の口癖だったのかしら?」と疑問を投げかける。そもそも「~かしら」はいつから使われ始めたのだろうか。J-CASTニュースでは、過去の文献を振り返るとともに、識者に見解を聞いてみた。 「坊っちゃん」や「少年探偵団」にも登場 「広辞苑 第七版」(岩波書店)によると、「かしら」は助詞。「『...か知らぬ』の転。明治以降の語。主として女性が用いる」としている。体言と同等の語に続いて、不審や疑問の意を表す。否定の助動詞「ない」「ぬ」に続いて、願望や依頼の意も示す。「かしらん」とも表記されるようだ。活用語の連体形に続いて、危ぶむ意も表すという。 ツイッター上では

      のび太の「~かしら」は女性的? 言葉の歴史を紐解いてみた
    • ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog

      こんにちは、AppBrewでアルバイトをしている@Leoです。 自然言語処理の研究室に最近入った大学生で、趣味はKaggleと競技プログラミングです。 AppBrewでは、LIPSの投稿を使ったデータ分析をしています。 今日の記事では、弊社のアプリLIPSにて投稿ジャンルを機械学習を使って自動推定した方法を紹介します。 自然言語処理・確率関係全然わからない!という人でも読みやすい内容になっていると思うので、最後まで読んでいただけると幸いです! LIPSにおけるジャンル 教師データの作成 ナイーブベイズ 単語分割 モデルの実装 分類結果 おわりに LIPSにおけるジャンル 最近、LIPSにジャンル機能が追加されました。 これは投稿されたクチコミにジャンルを設定できる機能です。 適切にジャンルを設定すると、投稿を検索するときにジャンルを使って絞り込めるなどの利点があります。 ジャンルは7種類(

        ナイーブベイズを使って1日で100万件の投稿をジャンル分けした話 - AppBrew Tech Blog
      • SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記

        はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika(スイカ)とした。 使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:

          SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
        • 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s

          追々記(1/23, 16:55): ちょっと自分でも気になる箇所があったので末尾に試訳Dを足しました。そちらにお進みください。 * 朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す話です。 www.asahi.com 大したことのない歌です。でもね、こういうのが大切なんですよ。 かきおくもかたみとなれやふでのあと我はいずこのうらにすむとも 品詞分解します。 かきおく:カ行四段動詞「書き置く」連体形。係助詞「も」の上は連体形です。 も:不確かさ、不安、懸念の係助詞。AかもしれないしBかもしれないしそれ以外かもしれない。 かたみ:名詞。「形見」。直観的には「片身」(かたみに袖をしぼりつつ)にも掛けているかなとも思いますが、この方の他の歌を見てみないと何ともいえません。また、「記念パピコ」(後述)。 と:格助詞 なれ:ラ行四段活用動詞「なる」命令形。なってしまえ。 や:詠嘆、強意の係助

            朝日新聞の愛のない口語訳に驚きあきれてかわいそうを通り越す - illegal function call in 1980s
          • WebAssemblyの形態素解析器GoyaをRustで作った

            Goyaという形態素解析器を Rust で作りました。本記事は利用者目線で Goya の紹介をします。技術的な詳細については別途記事を書きます。 形態素解析とは? (このセクションは形態素解析の基礎の話なので知ってる方は読み飛ばしてください) 形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。 — 形態素解析 - Wikipedia 例えば早口言葉の”すもももももももものうち”(スモモも桃も桃のうち)という言葉を形態素解析すると以下のような結果が得られます。スモモや桃が名詞、間にある”も・の”は助詞と解析さ

              WebAssemblyの形態素解析器GoyaをRustで作った
            • 三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ

              はじめに 読書案内 庵功雄 (2003)『『象は鼻が長い』入門』 益岡隆志 (2003)『三上文法から寺村文法へ』 金水敏 (1997)「4 国文法」『岩波講座 言語の科学 5 文法』 そのほか 寺村秀夫はどのように三上章の後継者か 「主語」の議論にフォーカスし過ぎるのは三上文法の過小評価では 「主語」に関する辞書の記述 日本語文法事典 日本語学大辞典 中間まとめ:三上の扱い おまけ1:「は」とか「主題」とか 「は」と主題の話なら山田孝雄も 「主題」を表す手段は様々な言語に様々な形である この辺りの読書案内 おまけ2:三上文法に関連するあれこれへの私見 主語廃止論と学校文法 ピリオド超え 三上の「土着文法」は日本語特殊論の対極にある 生成文法は主語を絶対視しているか 「「は」は主題」で本当に分かりやすいか おわりに 書いてみて 研究者・専門家のみなさま 引用文献(三上の著書を除く) 長いで

                三上章とその著書、あるいは三上文法に関する読書案内(おまけ付き) - 誰がログ
              • このブログの全エントリで学習した極小規模言語モデルを作った - Copilot試してみた日記 - きしだのHatena

                ブログの全エントリを読み込むコード作ったので、とりあえずこれで学習して極小規模言語モデルを作ったら面白かろう、とやってみました。 というとかっこいいけど、まあ形態素解析して続く単語の頻度を覚えておいて、頻度に応じた単語をつなげていうという、Twitter老人会の方ならご存じの圧縮新聞ですね。圧縮きしだのHatenaか。 まあ、ここではてなブログのアーカイブを読み込むコードを書いたので、これで何かしたら面白かろうなと。 GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena それで、以前 圧縮新聞ぽいものを作っていたので、これを改めてはてなブログをデータに作ってみた感じです。 Igoという形態素解析器をつかって圧縮新聞っぽいものを作ってみる - きしだのHatena 圧縮新聞のアカウントは凍結されていますが、雰囲気はこちらを。 圧縮新聞さん迷言集

                  このブログの全エントリで学習した極小規模言語モデルを作った - Copilot試してみた日記 - きしだのHatena
                • 形態素解析器をSwiftで試作してみた|Cotarou

                  開発方針 形態素解析器を開発するにあたり、既存のコスト計算済みのモデルを使用することも可能だったのですが、今回は実用的な形態素解析器を作るというよりは、Swiftの習得が目的であったため、できるだけフルスクラッチしてしまおうと思いました。誰に迷惑をかけるわけでもないので。 ゴールまでの道のりは、最終的に以下になりました。開発中は試行錯誤しながらだったので、前後しながら開発していました。先に進んでは、別のところに戻って再実装・テストを繰り返していました。 ・辞書 ・ダブル配列 ・学習データ ・ラティス構築 ・コスト計算 ・形態素予測辞書 形態素解析器を使用したことがある人は、ご存知だと思いますが、形態素解析器自体は辞書を内部で保持しているわけではないので、辞書を変更して使用することができます。よく使用される辞書としてはIPAdic・NEologd・UniDicなどがあり、どの辞書を選ぶかはそ

                    形態素解析器をSwiftで試作してみた|Cotarou
                  • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                    前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                      はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                    • ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki

                      本記事は,自然言語処理 Advent Calendar 2019 - Qiitaの1日目の記事です. はじめに 今回の記事では,去年末ごろからPythonとCythonだけでチマチマ作った形態素解析器Taiyakiをベースに,形態素解析器の解説をしようかなと思います.この形態素解析器の完成はまだ程遠いんですが,ひとまず簡単な形態素解析はできるようになったのでここでお披露目しておきます.本記事は実質,Double-Arrayの辞書引きと最小コスト法に基づく形態素解析器の解説記事となっています. なぜ今更に形態素解析器を作ったかと問われると困ってしまうのですが,NLPerなら1つぐらい自作しても良いのかなってことと.形態素解析がどう動いているかって意外と知らなかったのが動機です.解説内容間違えてる可能性はあるので,見つけた方はコメント欄でご指摘いただけると嬉しいです. 作っているものは下記リポ

                        ゼロから作った形態素解析器Taiyakiで学ぶ形態素解析 - The jonki
                      • 先生、その俳句の「切れ」はそうじゃありません|こばると

                        この記事は「言語学な人々 Advent Calendar 2021」の4日目の記事として書かれました。 はじめに俳句を始めた。2020年、高3の夏だった。 高2までは理系の文化部だったけれど、うちの高校にそもそも部活と呼べるほどの活動実態のある文芸の部活はほぼなく、俳句部なんてもってのほか。校内に特に仲間もいない中、ひとりで始めた、ある意味趣味らしい趣味だった。 校内に仲間がいないと書いたけど、本当はその頃、校内にもほとんどいられなかった。少なくとも、当時の僕が期待(依存?)していたよりは。言わずと知れたコロナ禍で、高校や塾は分散登校から徐々に類のないほぼ全面オンラインの学習指導に移行し始めた。誰もが手探りで、でもやるしかないから前に進む、そんな時期だった。 その「でも」が、僕にはなんだかどうしてもできなかった。ずっと同じ景色の自室に篭って、たまに体を鈍らせないように駅前を散歩して帰ってく

                          先生、その俳句の「切れ」はそうじゃありません|こばると
                        • JapanKnowledge版『日本国語大辞典』でテーマを探索しよう - ronbun yomu

                          この記事は「言語学な人々 Advent Calendar 2023」の17日目の記事です。 adventar.org 前置き 小学館『日本国語大辞典(第2版)』(以下、日国)の JapanKnowledge 版(以下、JK版日国)は、紙媒体にはない検索機能を備えています。*1 JapanKnowledge Lib 使い方ガイド JapanKnowledge 全体を対象とした「詳細(個別)検索」でも以下の検索を行うことができますが、 見出し検索 or 全文検索 AND, OR, NOT検索 完全一致、前方一致、後方一致、部分一致 この詳細検索の対象を『日国』に限定すると、検索範囲(見出し or 全文 or 用例 or …)をさらに細かく設定できたり、品詞で絞ったりできるようになります。 方法は以下の通り。 「詳細(個別)検索」にマウスオーバーして「日本国語大辞典」 または、「詳細(個別)検索

                            JapanKnowledge版『日本国語大辞典』でテーマを探索しよう - ronbun yomu
                          • wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

                            この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供しています。(COTOHA シリーズ) NTTコミュニケーションズがこのようなAI関連技術を活用したサービスを展開する強みとして、 NTT研究所の研究成果が利用可能であること 自社の他サービスを利用しているお客様に対してシナジーのあるサービスを提案できること この2点が挙げられると思います。 実際に、私が担当している COTOHA Voice Insight は 通話音声テキスト化によってコンタクトセンターの業務効率化・高度化を実現するサービスなのですが、 NTT研

                              wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
                            • 【言葉遊び空論12】完全ダジャレ・畳文|にぅま

                              「押し倒した」 という語がある 一見すれば 何でもない 言葉ではあるが 「おしたおした」と かな表記に直すと 興味深い事が 判明する ”おした”という 文字列を そのまま2度 繰り返すだけで 一文として成立しているのである この事に 気付いた際 ただならぬ 感動を憶えた という体験の持ち主は 筆者を除いては そう居られないだろう それは さて置き このような 特定の文字列を そのまま2度 繰り返して 成立させた文章を 完全ダジャレもしくは畳文と呼ぶ 似たもので 畳語を 思い浮かべる方も おられよう 畳語とは ある文字列の 繰り返しで 構成される”語”を言い 複数・継続・強調の表現(例:山々・休み休み・あるある)の他 オノマトペ表現(例:コロコロ・ギラギラ)で 使用される合成語である 繰り返された文字列が 一単語となるのが「畳語」であり 一文・文章となるのが「畳文」すなわち「完全ダジャレ」(

                                【言葉遊び空論12】完全ダジャレ・畳文|にぅま
                              • Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator

                                - はじめに - RustでNLP、機械学習どこまでできるのか試した時のメモ。 Pythonどこまで脱却できるのか見るのも兼ねて。 コードは以下に全部置いてある。 GitHub - vaaaaanquish/rust-text-analysis: rust-text-analysis - はじめに - - 形態素解析 - neologd lindera - Text Processing、Embedding - - XGBoost - - 実験 - - おわりに - - 形態素解析 - Rustの形態素解析実装を調べると、lindera-morphology/lindera を使うのが有力候補となりそうである。sorami/sudachi.rs や agatan/yoin 、 nakagami/awabi のような実装もあるがメンテは止まっている様子である。 linderaメンテナのブログ

                                  Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator
                                • いつも数えてる - 「だるころ」(だぁ~るまさんがこぉ~ろんだ♪)

                                  ●組み合わせは無限● ●ただ素直に読む● 今回も訪問して下さりありがとうございます。 今回は教えてもらったことを素直に書きます。 ●五・七・五を楽しむ。 俳句は五・七・五の語句をリズムよく楽しむのが大切です。 この五・七・五を「拍子」と言ったりします。 何を詠んでも「五文字・七文字・五文字」で拍子を楽しむのが基本です。 「五文字・七文字・五文字」が印象に残る。軽快で気持ちいいリズムなら、とってもいい俳句になるって感覚です。(音楽と似てると思います) ●季語は一つ必要! 一句に対して季語を一つ詠むと言う基本ルールが有ります。 季語とは、四季それぞれを表す語句の事です。 (春)梅 梅一輪 一輪ほどの あたたかさ    服部嵐雪 (夏)夏の蝶 夏の蝶 日かげ日なたと 飛びにけり   高浜虚子 (秋)名月 名月を とってくれろと 泣く子かな  小林一茶 (冬)冬木立 斧入れて 香におどろくや 冬木

                                    いつも数えてる - 「だるころ」(だぁ~るまさんがこぉ~ろんだ♪)
                                  • はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場

                                    前回は BERT についてその概要と使い方を紹介しました。今回は自然言語処理ライブラリである spaCy と spaCy をフロントエンドとする日本語NLPライブラリの GiNZA について紹介します。 1. 始めに 本記事では欧米で有名な自然言語処理ライブラリである spaCy とリクルートと国立国語研究所の共同研究成果である日本語NLPライブラリ GiNZA について紹介します。記事の前半では、spaCy と GiNZA の概要と日本語を処理する際の基本的な機能/操作について説明します。後半では、spaCy で提供される文章分類機能について、前回までに紹介した手法も含めて精度を比較してみます。 2. spaCy と GiNZA の概要 spaCy は Explosion AI 社の開発する Python/Cython で実装されたオープンソースの自然言語処理ライブラリで MIT ライセ

                                      はじめての自然言語処理 spaCy/GiNZA を用いた自然言語処理 | オブジェクトの広場
                                    • 象は鼻が長い 三上文法  文という枠を越える言葉 - 京都案内  こうへいブログ

                                      主語廃止論 日本語の基本的な関係は「主語―述語」ではなく、「主題―解説」であるという考え方。 それは、日本の文法研究の発展に伴い、多くの学者たちに支持されるようになりました。 その理論を広く世に知らしめた存在が、高校の数学教師から国語学会へと転じてきたという、三上章さん(1903~1971)という文法学者です。 独創的な見解で知られる三上さんは、自分の意見に異を唱える者には公開の場で徹底的に議論を挑むなど、妥協を許さない性格でした。 そのために、当時の国語学会の権威者たちからは完全に異端児扱いされていたそうなんです。 ですが一方で、若手・中堅の研究者たちからは熱烈な支持を受け、時代の流れに沿うようにして、三上理論を引き継ぐ者たちは急速に増えていったんですね。 象は鼻が長い ―日本文法入門 (三上章著作集) 作者:三上章 くろしお出版 Amazon 三上さんの名を一躍広めることとなったのが、

                                        象は鼻が長い 三上文法  文という枠を越える言葉 - 京都案内  こうへいブログ  
                                      • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

                                        概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

                                          apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
                                        • 複雑な文の流れを滑らかに結合させる潤滑油 それは抽象名詞と形式名詞 - 京都案内  こうへいブログ

                                          内の関係と外の関係 前回に引き続き、今回も連体修飾節を使った文章表現にこだわりながら、その本質を分析していきたいと思います。 たとえば、指にルビーの指輪をつけた(女優)という文を例にすると、名詞(女優)を詳しく説明・限定し、修飾しているのが(指にルビーの指輪をつけた)という連体修飾節と呼ばれる成分になります。 このような連体修飾節を使った表現方法には、じつは、二つの意味合いを持つ種類があるんですね。 A)さんまを焼く(シェフ)がいる。 B)さんまを焼く(匂い)がする。 「さんまを焼く」という連体修飾節がAでは(シェフ)を、Bでは(匂い)という名詞を修飾しています。 「さんまを焼く」という修飾節は表面上では全く同じ役割を果たしているように見えますが、そこに含まれた意味合いは大きく異なるのです。 Aの文は、シェフがさんまを焼く。という文と対応させることが出来ます。 名詞「シェフ」は、連体修飾節

                                            複雑な文の流れを滑らかに結合させる潤滑油 それは抽象名詞と形式名詞 - 京都案内  こうへいブログ  
                                          • MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】

                                            こんにちは!monachan_papaです。 前回までで、形態素解析の基本的なことについてやりました。 男は黙ってサッポロビールを形態素解析してみよう!【Pythonによる自然言語処理超入門】 川端康成『雪国』の冒頭を形態素解析してみよう!【Pythonによる自然言語処理超入門】 さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは? 形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男 名詞,一般,*,*,*,*,男,オトコ,オトコ

                                              MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】
                                            • 本多勝一「日本語の作文技術」のまとめ

                                              本多勝一「日本語の作文技術」朝日文庫 2015 原則集 原則の前提となる観察(第二章) わかりにくい文章の実例を検討してみると,最も目につくのは,修飾する言葉とされる言葉とのつながりが明白でない場合である.原因の第一は,両者が離れすぎていることによる. 日本語の大黒柱は述語であって,いわゆる「主語」ではない. 修飾語の語順の原則(第三章) 節(一個以上の述語を含む複文)を先にして,句(述語を含まない文節)を後にする. 長い修飾語ほど先にして,短いほど後にする. 大状況・重要内容ほど先にする. 親和度(なじみ)の強弱により配置転換する. 節を先にして,句を後にする. 「厚手の白い横線の引かれた紙」ではなく「横線の引かれた厚手の白い紙」とする 「速く止まらずに走る」ではなく「止まらずに速く走る」とする. 長い修飾語ほど先にして,短いほど後にする. 「明日は雨だとこの地方の自然に長くなじんできた

                                              • tiny-segmenter・kuromoji.js : JavaScript 製の形態素解析ツールを2つ使ってみた - Corredor

                                                形態素解析ツールというと MeCab が有名だが、コレはライブラリをマシンにインストールし、Python・Ruby・Java・Perl・Node.js 言語などにバインディングするライブラリを導入することで使える。機能的には十分便利だが、導入手順や言語の制約があり、ライブラリのサイズも大きいので、ウェブアプリとして動かす時は若干やりづらいところもある。 そこで、MeCab 以外に形態素解析ツールがないか、中でも JavaScript 製だったりして、ブラウザオンリーで使えるようなライブラリがないか、探してみた。 tiny-segmenter kuromoji.js 軽さ優先なら tiny-segmenter・MeCab に近い品詞情報も知りたければ kuromoji.js tiny-segmenter 早速見つけたのは、TinySegmenter というライブラリ。JavaScript 製

                                                  tiny-segmenter・kuromoji.js : JavaScript 製の形態素解析ツールを2つ使ってみた - Corredor
                                                • 奥津敬一郎 著「(ボクハ ウナギダ)の文法」 長い間抱えていた疑問を解き明かしてくれた一冊 - こうへいブログ  京都案内 そして スラスラと流れるような文章が書けるようになりたくて

                                                  常に例外がつきまとう法則 日本語の文法というのは本当に不思議なモノで、辞書のレベルでは決定しきらない例外が、それこそたくさん出てきます。 たとえば、次に出てくる文のような、動詞の格支配の例を見てみてください。 A)鯛を刺身に作る。   ?鯛を作る。 B)一人娘を嫁に取る。  ?一人娘を取る。 このA、B文では「作る」と「取る」という動詞が格体制をとっていますが、いずれも「鯛ヲ」「一人娘ヲ」というヲ格との結びつきは、間接的なものとなっているんですね。 「刺身二」「嫁二」という、二格と動詞が先に結びつき、その全体に対してヲ格が結びついているのだと、例文が掲載されている文法書には書かれています。 「鯛を【刺身に作る】」・「一人娘を【嫁に取る】」というように、ヲ格の存在はあくまでも二格の存在が前提されているということなんです。 本当にそうなのでしょうか? 本来、日本語の動詞文は述語を中心として構成

                                                    奥津敬一郎 著「(ボクハ ウナギダ)の文法」 長い間抱えていた疑問を解き明かしてくれた一冊 - こうへいブログ  京都案内 そして スラスラと流れるような文章が書けるようになりたくて
                                                  • Sudachiで馬謖を切る: 形態素解析の可視化とユーザー辞書による制御

                                                    TL;DR 形態素解析は意図しない結果になることがあるし、唯一の正解があるとも限らない ViSudachiで解析の内部構造を可視化し、なぜその結果に至ったかを確認できる ユーザー辞書により、解析をある程度コントロールできる 馬謖を切る 遥か昔の中国に生きた諸葛孔明という人は、重用していた部下の馬謖(ばしょく)が命令に従わなかったため、規律を遵守し泣いて斬罪に処したと言われています。 さて、形態素解析器Sudachiで 馬謖 を切ってみると、どうなるでしょうか。 複数単語には分割されないようです。では、もしこれを 馬 / 謖 の2単語へと切りたい時には、どうしたらいいでしょうか? 形態素解析の誤り 馬謖 の例はどうでもいいことだと思うかもしれませんが、形態素解析ではたまに誤解析が起こります。 例えば形態素解析界で知られる話として 魔法少女リリカルなのは というアニメ作品名の解析があります。こ

                                                      Sudachiで馬謖を切る: 形態素解析の可視化とユーザー辞書による制御
                                                    • GiNZA入門 (1) - 事始め|npaka

                                                      「GiNZA」の使い方をまとめました。 ・GiNZA 4.0.51. GiNZA「GiNZA」は、オープンソースな日本語の自然言語処理ライブラリです。最先端の機械学習技術を取り入れた自然言語処理ライブラリ「spaCy」をフレームワークとして利用しており、トークン化処理にオープンソースな形態素解析器「SudachiPy」が使われています。 ・文境界解析 ・形態素解析 ・係り受け解析 ・固有表現抽出 ・文節抽出2. GiNZA のインストール(1) 「Google Colab」で以下のコマンドを実行。 !pip install -U ginza(2) メニュー「ランタイム → ランタイムを再起動」で「Google Colab」を再起動。​ 3. 文境界解析「文境界解析」は、文章を文の境界を検出して、文に分解する処理です。 import spacy nlp = spacy.load('ja_gi

                                                        GiNZA入門 (1) - 事始め|npaka
                                                      • MacにMeCabとNEologdをインストールして、形態素解析する

                                                        形態素解析を行う MeCab + IPA辞書で『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載という文を形態素解析してみます。 $ mecab 『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載 『 記号,括弧開,*,*,*,*,『,『,『 鬼 名詞,一般,*,*,*,*,鬼,オニ,オニ 滅 名詞,一般,*,*,*,*,滅,メツ,メツ の 助詞,連体化,*,*,*,*,の,ノ,ノ 刃 名詞,一般,*,*,*,*,刃,ハ,ハ 』 記号,括弧閉,*,*,*,*,』,』,』 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 吾 名詞,一般,*,*,*,*,吾,ワレ,ワレ 峠 名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ

                                                          MacにMeCabとNEologdをインストールして、形態素解析する
                                                        • 今日、目にした言葉

                                                          係助詞「しか」に続く肯定文。 助詞 - Wikipedia (ある事象に関して、)Aに属していない人達しか忘れられるような扱いして~ 上記は仮定(「だとしたら」的な)でなく現状を言いたかったようで、話者の言いたいことは一言「今更」であった。 ~しか~ない 「しか…ない(しかない)」の意味や使い方 Weblio辞書 しか(シカ)とは - コトバンク 例「オトガイはヒトにしか存在しない。」→オトガイはヒトにのみ存在する部位。 ヒトにしかない部位「おとがい」の秘密|WIRED.jp 実際のところ、ある事象に関して、Aに属する人たちが忘れているような扱いを(他から)されているのは明白であり、 結論文言を強調するために勢い余って「しか」を使ってしまったようだ。

                                                            今日、目にした言葉
                                                          • 日本語基礎講座 三上文法入門  その裏に隠された真実 - 京都案内  こうへいブログ

                                                            一般向けにわかりやすく解説 1952年、日本語文法にとってまさに画期的な論説と評判になった「現代語法序説」が世に出ました。著者は、当時の学界の異端児と呼ばれた三上章さんです。 文法学者として独創的な見解を示す三上さんは、その舌鋒鋭い議論の仕方が災いしてか、国語学界に敵も多かったのですが、その理論を受け継ぐ研究者は増え続け、現在では三上さんの功績は高く評価されているんですね。 人の意表をつくような内容が魅力的な三上さんの著書ですが、ほとんどが「一般向き」に書かれたものではなく、内容を理解するには非常に難易度が高いものとなっています。 だから、その独創的な理論を学び吸収したいのに、日本語の基本的構造など、ある程度の文法知識がないと専門用語も多くて、私なんかは、なかなかついていくのが難しいのです。 そこで今回ご紹介するのが、山崎紀美子さんの書かれた「日本語基礎講座―三上文法入門」なんですね。 日

                                                              日本語基礎講座 三上文法入門  その裏に隠された真実 - 京都案内  こうへいブログ  
                                                            • ワードクラウド

                                                              はじめに ワードクラウド(word cloud)とは頻出語を頻度に比例する大きさで雲のように並べたものです。 英語のワードクラウドは wordcloud ライブラリで簡単に描けます。あらかじめ pip install wordcloud などとしてインストールしておきます。テキストとしては何でもいいのですが、ここでは WordCloud() の説明文(docstring)を用いてみます: from wordcloud import WordCloud text = WordCloud.__doc__ wc = WordCloud(width=480, height=320) wc.generate(text) wc.to_file('wc1.png') 日本語はこのように簡単にはいきません。まずは単語に分解しなければなりません(形態素解析)。そのためのツールとして、昔から有名なMeCab(

                                                              • 沖森卓也『日本語全史』を活用するために - ronbun yomu

                                                                沖森卓也(2017)『日本語全史』ちくま新書は、「学部生にリファレンスとしてとりあえず持っておいてほしい本」として抜群のコストパフォーマンスを誇る。 www.chikumashobo.co.jp が、広い分野・時代に亘って記述することの弊害か、特に、著者の直接的な専門ではない(失礼?)中世以降の文法の記述については情報が古いものが目につく*1。 そういうわけで、以下、特に文法の項目について、これは今は通説ではないとか、他にこういう説があるとか、記述が不十分であるとか、そういうことを勝手に補訂して、引くべき例もついでに引く。 外部リンクは、リポジトリのあるものはリポジトリへ、ないものは国語研DBなどへ。教科書・参考書として使っている方の、勝手なサポートページとしてもどうぞ。 [所謂上代特殊仮名遣について]通説では、このような区別をそのまま母音の違いに求め、母音が八つあったと説かれることが多い

                                                                  沖森卓也『日本語全史』を活用するために - ronbun yomu
                                                                • 現代・古典日本語の形態素解析・係り受け解析のためのunidic2ud | yasuokaの日記 | スラド

                                                                  私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1    笑顔    笑顔    NOUN    名詞-普通名詞-一般    _    5   

                                                                  • 桜花咲きかも散ると見るまでに・・・巻第12-3129 - 大和の国のこころ、万葉のこころ

                                                                    訓読 >>> 桜花(さくらばな)咲きかも散ると見るまでに誰(た)れかも此所(ここ)に見えて散り行く 要旨 >>> まるで桜の花が咲いてすぐに散っていくように、誰も彼も、現れたかと思うとすぐまた散り散りになっていく。 鑑賞 >>> 『柿本人麻呂歌集』から「羈旅発思(旅にあって思いを発した歌)」。「咲きかも」「誰れかも」の「かも」は疑問の係助詞。旅先の往来に現れては消えていく人の中に妻の幻影を見ている歌、あるいは旅先での出会いと別れを歌ったもので、若い人麻呂の歌だろうとされます。この歌は、のちに蝉丸の「これやこの行くも帰るも別れては知るも知らぬも逢坂の関」(『後撰集』)に引き継がれています。

                                                                      桜花咲きかも散ると見るまでに・・・巻第12-3129 - 大和の国のこころ、万葉のこころ
                                                                    • SudachiPyでユーザー辞書を使う - Re:ゼロから始めるML生活

                                                                      気がついたら、前回のブログからだいぶ空いてしまいました。 これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が使えるようになったようです。 github.com ということで、今回はそれを使ってみます。 SudachiPyのインストール ユーザー辞書 ユーザー辞書を作成 ユーザー辞書をビルド sudachi.jsonにユーザー辞書を指定 使ってみる Before After Dockerを使ってやってみる Dockerfile 形態素解析 感想 SudachiPyのインストール github.com 普通にReadmeに書いてあるとおりにインストールを進めます。 とりあえずインストールしてみます。 すでに、古いSudachiが

                                                                        SudachiPyでユーザー辞書を使う - Re:ゼロから始めるML生活
                                                                      • 【言葉遊び空論18】二義文 ~ダブルミーニングの作文~|にぅま

                                                                        漫画家:梶原一騎の代表作『巨人の星』 このタイトルにおける 「巨人」は 「巨人軍」を指すが 「星」は 主人公の「名前(星飛雄馬)」と 「象徴・スター選手」の 2通りの意味を 踏まえている 即ち 「巨人軍に所属する星という人物」 と 「巨人軍を象徴するスター選手」とを 二重に織り込んでいる 表現となっているわけだ こうした 一つの文で 異なる 二つの意味を 有するという例は 荒廃した都市においても その陰に身を潜める 野良猫の如く 広範に分布している 生徒・学生諸君であれば 特に 「試験終わった」と聞くと 二つの意味である事を 瞬時に察する事だろう(試験の日程が全て完了した/試験の出来具合が散々だった) これは極めて 日常に有り触れた 現象と言っても 過言ではない 簡単に 二通りの 異なった意味を持つ 言葉や文章 あるいは その仕組みを ダブルミーニング と呼ぶ これに加えて 実践女子大学教

                                                                          【言葉遊び空論18】二義文 ~ダブルミーニングの作文~|にぅま
                                                                        • 陳述・モダリティ論争について - 鶏肋断想

                                                                          第22回國學院大學日本語教育研究会 発表資料 2017年7月15日(土) 陳述・モダリティ論争と日本語教育 國學院大學兼任講師 大東文化大学非常勤講師 岡田 誠 はじめに 言語学・日本語学・日本語教育において、文の成立に関わる重要な概念として、「モダリティ」という概念がある。しかし、その捉え方には研究者によって捉え方が異なり、諸説ある。英語の場合には、must・may・canなどの法助動詞の表す意味をモダリティとするが、日本語の場合には規定が定まっていない。そのため、諸家によって用語の定義が異なるだけではなく、陳述・ムード・モダリティを区別しないこともある。日本語文法史からみると、文の成立をめぐって陳述論争があり、陳述論争の終息のあと、ムードやモダリティ論争が行われ、陳述論争が再び形を変えたポスト陳述論争であるとされ、近藤泰弘(1989)は、「日本語研究における『陳述論』とは、定動詞の定義

                                                                            陳述・モダリティ論争について - 鶏肋断想
                                                                          • 週刊Railsウォッチ(20190918-2/2後編)RubyPrize 2019候補者発表、GoogleがTypeScript 3.5に熱烈フィードバック、日本語形態素分析kagomeほか|TechRacho by BPS株式会社

                                                                            2019.09.18 週刊Railsウォッチ(20190918-2/2後編)RubyPrize 2019候補者発表、GoogleがTypeScript 3.5に熱烈フィードバック、日本語形態素分析kagomeほか こんにちは、hachi8833です。 各記事冒頭には⚓でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 毎月第一木曜日に「公開つっつき会」を開催しています: お気軽にご応募ください ⚓週刊Railsウォッチ「公開つっつき会」第15回のお知らせ(無料) お申込み: 週刊Railsウォッチ公開つっつき会 第15回|IT勉強会ならTECH PLAY[テックプレイ] 第15回目公開つっつき会は、10月5日(木)19:30〜にBPS会議スペースにて開

                                                                              週刊Railsウォッチ(20190918-2/2後編)RubyPrize 2019候補者発表、GoogleがTypeScript 3.5に熱烈フィードバック、日本語形態素分析kagomeほか|TechRacho by BPS株式会社
                                                                            • 自然言語処理ライブラリGiNZAの解析結果を解りやすく表示してみた - Qiita

                                                                              はじめに この記事はspaCy/GiNZAを触ったことがない人を対象に、どのような解析結果が出力されるか把握し理解することを目的としています。 spaCy/GiNZAとは GiNZAはUniversal Dependencies(UD)に基づいたオープンソースな日本語処理ライブラリです。 spaCyというMITライセンスで商用レベルな自然言語処理フレームワークをベースに構築されています。 Pythonがインストールされていれば、簡単にインストールすることができます。 $ ginza 銀座でランチをご一緒しましょう。今度の日曜日はどうですか。 # text = 銀座でランチをご一緒しましょう。 1 銀座 銀座 PROPN 名詞-固有名詞-地名-一般 _ 6 obl _ SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP

                                                                                自然言語処理ライブラリGiNZAの解析結果を解りやすく表示してみた - Qiita
                                                                              • ja_GinzaとspaCy

                                                                                オープンソースの自然言語処理ライブラリの代表格はNLTKと呼ばれるフレームワークでした。近年、 Explosion AI 社が開発した Python/Cython で実装されたオープンソースの自然言語処理ライブラリ spaCy が公開されました。MIT ライセンスで利用が可能です。多くの言語をサポートし、学習済みの統計モデルと単語ベクトルが付属しています。研究用ではなく製品作成環境での本番利用を念頭に開発されていることも NLTK などの自然言語処理ライブラリと異なるところです。 また、最近までは spaCy の学習済みモデルには日本語に対応したものがなく、 バックエンドでMeCab を用いて形態素解析を行っていました。その結果、spaCy を利用して記述された自然言語処理のアプリケーションやライブラリでは日本語の文書を処理することができない状況が続いていました。 2019年4月に、リクル

                                                                                • 【入門】自然言語処理でできることをいくつかPythonで実装してみる!|スタビジ

                                                                                  まずは、MeCabを使う環境を整えていきましょう! MeCabを使う場合はGoogle colaboratoryを使うのがオススメです。 Google colaboratoryであれば、以下のように記述してあげることでMecabを利用することができます。 !apt install aptitude !aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y !pip install mecab-python3==0.7Google ColaboratoryとはGoogleが無料で提供してくれているクラウド実行型のJupyter notebook実行環境です。 Googleのアカウントを持ってさえいれば誰でも使用することができ、開発環境を整える必要もなくPythonによる機械学習実

                                                                                    【入門】自然言語処理でできることをいくつかPythonで実装してみる!|スタビジ