並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 41件

新着順 人気順

Mecabの検索結果1 - 40 件 / 41件

Mecabに関するエントリは41件あります。 形態素解析自然言語処理python などが関連タグです。 人気エントリには 『2019年末版 形態素解析器の比較 - Qiita』などがあります。
  • 2019年末版 形態素解析器の比較 - Qiita

    形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。 (SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では?と申し上げておきたいです) MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました(Janomeというものがありましたがmecab-python3の方が高速です)。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。 辞書はIPA辞書が推奨されていますが、Un

      2019年末版 形態素解析器の比較 - Qiita
    • AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai

      アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。 多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。 日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このよ

        AWS、PythonでMeCabを使う際の語彙データを無料公開 | Ledge.ai
      • Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE

        PythonはAIや機械学習領域のライブラリを豊富に持っており、近年非常に高い人気を誇っています。今回はPythonを使用して自然言語(人間が読み書きする言語)を処理する方法ご紹介します。 近年、自然言語処理の領域は急速に発展しており、機械翻訳(英語から日本語の翻訳等)の精度も年々向上しています。今回はその自然言語処理の基礎の基礎の部分をお伝えし、Pythonで処理する方法をご紹介いたします。 合田 寛都(ごうだ・かんと) 株式会社メンバーズ メンバーズデータアドベンチャー データアナリスト メンバーズに新卒入社後大手企業のWEBサイト運用やアクセス解析等に従事。メンバーズデータアドベンチャーに異動し、クライアント企業にデータアナリストとして常駐。 自然言語とは? 自然言語とは人間が日常的に読み書きする、所謂普通の言語のことを指します。これと対比されるのが機械語やプログラミング言語で、Py

          Pythonで始める自然言語処理の基礎の基礎 | クリエイターのための総合情報サイト CREATIVE VILLAGE
        • 漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社

          きっかけ 以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。 「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは ⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica

            漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社
          • 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services

            Amazon Web Services ブログ 日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の特性に即した形で前処理を行う必要があります。日本語の自然言語処理を実施する際には、形態素解析と呼ばれる文章の分解処理を前位処理として一般的に行います。日本語形態素解析を行うためには、日本語の語彙データが必要となりますが、このデータは通常 GB 以上のサイズに及ぶ大きなサイズとなります。またこれらを用いた計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの

              日本語形態素解析器 MeCab を Python から利用する際の語彙データ(UniDic)が AWS 上で Open Data として公開されました | Amazon Web Services
            • 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020

              PyCon JP 2020 での発表スライドです。 GitHub: https://github.com/taishi-i/toiro/tree/master/PyConJP2020

                最先端自然言語処理ライブラリの最適な選択と有用な利用方法 / pycon-jp-2020
              • AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開

                アマゾンウェブサービスジャパンは、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリである「fugashi」経由でPythonにて使用する際の語彙データ「UniDic」が、「Open Dataset」に追加されたことを、10月9日に発表した。 「MeCab」は、オープンソースの形態素解析器で、日本語の形態素解析において幅広く用いられており、言語、辞書、コーパスに依存しない汎用的な設計を基本とし、高速に動作する。 「fugashi」は、「MeCab」をPythonから使用する際のラッパーライブラリで、unidic-pyとの連携によって「UniDic」を簡単に読み込んで使用できる。 「UniDic」は、国立国語研究所によって構築された、日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。 データはAmazon S3上でホストされているので、AWSで

                  AWS、Pythonから「MeCab」を利用する際の語彙データをOpen Dataとして公開
                • 形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ

                  概要 ホント誰得でもないのは重々承知していますが、思い立って 形態素解析器 kagome v2 をリリースしました。とはいっても、だいたいの機能は今ある kagome でも実装済みで、今さら変更してもどうよ・・・という感じではあります。 なので、モチベーションを維持するのが非常に難しくて、だらだらと時間だけがかかってしまいました。 折角作ったのでリリースノートです。 TL;DR; v2 で実現した事 辞書の分離 / バージョン管理 辞書毎に異なる素性項目の扱いの共通化 韓国語辞書対応 辞書の分離 辞書を別リポジトリに分離しました。これにより、長年(?)懸案だった辞書のバージョン管理が可能になりました。go.mod で指定すれば、どのバージョンの辞書を利用しているかがわかります。 また、これにより、これまで kagome.ipadic のような単独辞書を利用するだけのためのライブラリを別に切

                    形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ
                  • ダジャレを判定する - Stimulator

                    - はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。 類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。 そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。 ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、

                      ダジャレを判定する - Stimulator
                    • SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記

                      はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika(スイカ)とした。 使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:

                        SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
                      • Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし

                        機械学習ワークフロー管理ツールであるKubeflowのPipelines機能を使って日本語テキスト分類の実験管理を行います。 この記事ではKubeflowのチュートリアルに従ってKubeflowのクラスタを構築してPipelinesを動かし、最後に日本語のデータセットをKubeflow Pipelinesに実際に乗せて機械学習のワークフロー管理を行うところまでまとめていきます。 Kubeflow Kubeflowとは Pipelinesとは GKEでKubeflowクラスタの構築 クラスタ構築 Workload Identityの設定 Pipelinesの基本的な使い方 Pipeline/Experiment/Run PipelineとComponent PipelineとDSL 実験管理としてのKubeflow Pipelines 日本語テキスト分類 with Pipelines Pip

                          Kubeflow Pipelinesで日本語テキスト分類の実験管理 - やむやむもやむなし
                        • あなたの文章に合った「いらすとや」画像をレコメンド♪(応用編) - Qiita

                          どんなアプリ? みんな大好き「いらすとや」さん 記事の挿絵に使ってみたいけれども、適切な画像を探すのに苦労していませんか? 検索キーワードを何にしようか迷ったり、一つ一つ検索するのは面倒だなぁとか。 そんな苦労を解決してくれる、 ドキュメントの文章をまるっと全部与えると、自動で特徴的なキーワードを見つけてくれて、そのトピックに合った画像を「いらすとや」さんから探してきて、文章中に埋め込んでレコメンドしてくれるアプリを作ってみました。 例えば、下図のように北大路魯山人「だしの取り方」の文章を全部与えると、「鉋(カンナ)」や「だし」などの特徴的なキーワードを自動抽出して、それに合った挿絵を適した位置にレコメンドしてくれ、簡単に挿絵入りの文章を作れます。 加えて、レコメンド完了までの所要時間は数秒です。簡単かつ高速! 以下、このアプリの作り方について解説していきます。 なお、本記事はあなたの文章

                            あなたの文章に合った「いらすとや」画像をレコメンド♪(応用編) - Qiita
                          • MeCabをPythonで形態素解析 + FlaskでAPI | Tech Blog | CRESCO Tech Blog

                            MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。

                            • TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開

                              TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開企業名のカバレッジ範囲が高い辞書で、自然言語処理など多様なシーンでの活用を目指す TISインテックグループのTIS株式会社(本社:東京都新宿区、代表取締役会長兼社長:桑野 徹、以下:TIS)は、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開し、辞書を生成するコードをオープンソースソフトウェア(OSS)として公開することを発表します。 ・「JCLdic」公開ページ:https://github.com/chakki-works/Japanese-Company-Lexicon (利用は上記のページからダウンロード) 「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTI

                                TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
                              • 形態素解析エンジンMeCabの使い方完全マニュアル〜Python編〜

                                今では機械に複数の言語を翻訳させたり、知りたい情報を検索サービスですぐに得られるようになりましたよね。実はこの背景には形態素解析という技術が大きく関係しています。 実はこの形態素解析は形態素解析エンジン「MeCab」で体験することができます。 それではこの形態素解析が体験できる形態素解析エンジン「MeCab」をPythonで利用する方法を説明していきましょう。 このMeCabとは形態素解析ができるソフトウェアのこと。単体で利用したり、プログラミング言語「Python」とMeCab連携して使うことが可能です。 そこでまずMeCabと形態素解析についての基本やどのような環境構築・準備が必要なのか。また、MeCabのインストール・Pythonと連携させる方法、PythonでMeCabを利用した形態素解析をする方法を具体的にお話します。 最後にはMeCabを使うときのポイントや、みなさんに併せてお

                                  形態素解析エンジンMeCabの使い方完全マニュアル〜Python編〜
                                • MeCabへWikipediaの辞書を追加する方法

                                  こんにちは、GMOアドマーケティングのS.Rです。 日本語のNLP(自然言語処理)で形態素解析は大切な処理の1つとなります。 今回は、形態素解析ツール「MeCab」へWikipediaの辞書を追加する方法を紹介します。1. 日本語の形態素解析ツールMeCab MeCabは日本語の形態素解析ツールです。詳細はWikipediaの説明をご覧ください。 MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。 MaCab、2019年09月17日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/MeCab 2. 「MeCab」へWikipediaの辞書を追加する方法の説明 1)

                                    MeCabへWikipediaの辞書を追加する方法
                                  • 続・MeCabの分かち書きを並列処理で高速化する

                                    まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

                                      続・MeCabの分かち書きを並列処理で高速化する
                                    • はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita

                                      tl;dr 2020年1年間のはてなブックマークの人気エントリー3万件をもとに技術トレンドを分析。 その結論とPythonでグラフ化した手順を書き記します。 ※ご指摘がありましたが、技術トレンドというよりitニューストレンドと言った方が正しいかもしれません。踏まえてお読みください。 前置き 手元に2020年の1年間ではてなブックマークの技術カテゴリーにおいて人気エントリーに一度でも乗ったことのある記事のタイトルデータが3万件ほどあったため、形態素解析を行い単語の出現頻度順に並べてみました。欠損の割合としては多くても1割程度、つまり少なくとも9割程度のデータは揃っているはずなので精度はかなり高いと思います。 (※はてなブックマークはNewsPicksみたくインターネット上の記事をブックマーク・コメントでき、より多くブックマークされた記事が人気エントリーとしてピックアップされるサービスです。w

                                        はてなブックマーク3万件にみる技術トレンド2020年まとめ - Qiita
                                      • 機械学習のための日本語前処理 - Qiita

                                        はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日本語テキストにも適用して動作させること。日本語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

                                          機械学習のための日本語前処理 - Qiita
                                        • GitHub - daac-tools/vibrato: 🎤 vibrato: Viterbi-based accelerated tokenizer

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - daac-tools/vibrato: 🎤 vibrato: Viterbi-based accelerated tokenizer
                                          • UTH-BERT: a BERT pre-trained with Japanese clinical text – 医療AI・デジタルツイン開発学講座

                                            Abstract This page publishes a Bidirectional Encoder Representations from Transformers (BERT) model that was pre-trained with a huge Japanese clinical text (approximately 120 million lines). This model is released under the Creative Commons 4.0 International License (CC BY-NC-SA 4.0). To develop the model, we leverage the Tensorflow implementation of BERT published by Google on this page. This stu

                                            • [文章生成]MeCabをインストールして分かち書きを試してみよう

                                              今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから本文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日本語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます

                                                [文章生成]MeCabをインストールして分かち書きを試してみよう
                                              • Azure FunctionsでPythonとMeCabを使う - Qiita

                                                本記事の目的 Azure Data Factoryの前処理で、MeCabを利用した簡単な自然言語処理(形態素解析+α程度)をしたい。 関数として実装して、後々LogicAppsとか色々なサービスから呼び出せれば便利そう。ということで2つの実装方法を検討した。 Azure Functions(本記事) Azure DataBricks(Azure DatabricksでPythonとMeCabを使う) 機械学習のように重たい処理を行うわけではないのでAzure Functionsで十分だろう、ということで実装してみた。 先に結論を書くと ・Azure FunctionsのHTTP Requestをトリガーとする関数は以下のURLを参考にすれば実装できる Visual Studio Code を使用して Azure Functions プロジェクトを作成する https://docs.micr

                                                  Azure FunctionsでPythonとMeCabを使う - Qiita
                                                • fastTextを使用した文章ベクトル作成 – 株式会社エノキ

                                                  BERTを使用した文章ベクトル作成の記事では、日本語BERT学習済みモデルを使った日本語の文章ベクトル作成をしてみました。文章ベクトルを作ることで、文章の分類や、機械学習アプリケーションへの入力として使うなど、色々な自然言語処理に応用することができます。文章ベクトルを作るには自然言語処理モデルを使いますが、モデルには色々な種類がありBERTだけでなく、その進化系のALBERTや、XLNetなど新しいモデルが提案され精度向上を謳っています。 今回はBERT以外のモデルでの文章ベクトル作成を試してみたいと思います。今回使うモデルは、Facebookで開発されたfastTextです。fastTextを自然言語に活用しようと思っていらっしゃる方向けの技術情報になれば幸いです。 Word2Vecを考案したトマス・ミコロフが、GoogleからFacebookの人工知能研究所「Facebook AI R

                                                  • 日本語解析ツール Konoha に AllenNLP 連携機能を実装した - Qiita

                                                    はじめに konoha という形態素解析ライブラリを開発しています. このライブラリに対し, AllenNLP のインテグレーションを実装したので,今回はその紹介をします. この機能を利用することで,日本語のテキストを分かち書きなどの前処理なしで allennlp train コマンドに渡せるようになります. AllenNLP は Allen Institute for Artificial Intelligence が開発している自然言語処理のライブラリです. AllenNLp は非常に強力なツールなのですが,日本語のデータを扱いたい場合,予め形態素解析をしておく前処理が必要になることがあります. Spacy と Ginza のおかげで, Universal Dependencies (UniDic) が採用している単位であれば, AllenNLP で日本語データを扱うことは可能そうです

                                                      日本語解析ツール Konoha に AllenNLP 連携機能を実装した - Qiita
                                                    • Colabでpysparkのword2vectorを利用する方法

                                                      こんにちは、GMOアドマーケティングのS.Rです。 前回は、Colabで大規模データを処理するpysparkというツールの環境を構築する方法を皆さんへ紹介しました。今回はcolabで自然言語処理に良く使われているword2vectorのモデルを利用する方法を皆さんへ紹介します。 1.環境構築 1)  pysparkをインストールする 下記のコマンドでpysparkをインストールできます。

                                                        Colabでpysparkのword2vectorを利用する方法
                                                      • [文章生成]マルコフ連鎖で文を生成してみよう

                                                        今回の目的 前回までに青空文庫から梶井基次郎の著作をダウンロードしたり、形態素解析を行うためにMeCabをインストールしたりしてきました。今回は、いよいよこのデータを使って文章を生成してみます。といっても、まだディープラーニングの分野には踏み込むことはしません。ここでは「マルコフ連鎖」と呼ばれる手法を使って、文章を生成してみるだけです。 実際にはこんな文章が生成されました。 そして私は友の反省の為の金を貸してくれました。 何しろ俺は大嫌いなんだよ。 あの窓の外で、孫にあたる人間を集めてゐた。 一台の赤い実が目にも堪えることのない、早く返事をしながら涙をためた。 正直なところ、「うーむ」という文章も多いのですが、失敗も含めてやってみることが大事です(生成されたものが短文であれば、日本語としても解釈できるものもありますが、長文になると意味不明なものにしかなりませんでした)。 文章を生成するだけ

                                                          [文章生成]マルコフ連鎖で文を生成してみよう
                                                        • 日本語テキストをワードクラウドで可視化する

                                                          GMOアドマーケティングのT.Oです。 今回は日本語テキストをワードクラウドで可視化します。 開発環境として、Google Colaboratory(以下、Colabと略)を利用します。 またワードクラウドを生成するためのPythonライブラリであるWordCloudを使用します。 0.ワードクラウドとは? ワードクラウドはテキストに含まれるキーワードの出現頻度にあわせて文字の大きさを変えて視覚化したものです。どのような単語がよく使われているか視覚的にとらえやすくなります。 1.MeCabのインストール Colabに日本語を形態素解析するためのツールであるMeCabをインストールします。 !apt-get -y install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8 !git clone --depth 1 https://git

                                                            日本語テキストをワードクラウドで可視化する
                                                          • マルコフ連鎖で自動文章生成をする【Pythonによる自然言語処理超入門】

                                                            ツリー形式で示すとこんな感じです。 マスク └── する └── なぜなら ├── マスク警察 │   ├── うるさい │   └── 防止 └── 花粉症 ├── うるさい └── 防止 さてここで! 「マスク する なぜなら 花粉症 うるさい」という文は、いかにもおかしな文章です。「花粉症」までは、まぁいいでしょう。しかし、「花粉症 うるさい」はもう錯乱していますよね、文学的です! これはなぜか。定義通りに過去の状態を全く考慮していないし、「花粉症」に連鎖するのは、「うるさい」、「防止」という単語から2分の1の確率だけで決まるからです。 作成手順概要 さぁ、簡単なイメージがつかめたところで、Python を使って実装していきます。マルコフ連鎖自体はmarkovify という専用ライブラリがあるので、それを使えば簡単にできてしまいます。しかし、今回はマルコフ連鎖の仕組みを体感をするため

                                                              マルコフ連鎖で自動文章生成をする【Pythonによる自然言語処理超入門】
                                                            • AWS Lambda with Container Image で MeCab (NEologd) を動かしてみたCCT-recruit | CCT-recruit

                                                              ちなみにLambda with Container Imageによるメリットにはサイズ制限以外もりますが、今回は主にサイズ制限に着目しています。 LambdaでMeCabを利用する場合の課題 LambdaでMaCabを利用しようとした場合にファイルサイズ制限の影響を受けるのが辞書ファイルです。 MeCab本体のサイズはそこまで大きくないのですが、辞書にNEologdを利用するとビルド済みのバイナリデータのサイズが1GBを超えてきます。 ビルド時のオプションで登録単語数を減らしても700MB程度のバイナリデータになります。 1GBのバイナリデータとなるとLambda Layersのサイズ制限である250MBを軽く超えるため、今まではEFSを利用して解決するしかありませんでした。 といってもLambdaにEFSがマウント可能になったのが2020年6月なので「そんな処理はLambdaでやることじ

                                                              • 形態素解析の結果を利用してTF法により特徴抽出をする - Qiita

                                                                はじめに 本記事では、文書分類器を実装するための特徴抽出方法としてのTF(Term Frequency method)法について解説する。 1. 形態素解析 文書分類では、文書内の単語の情報を利用する。日本語は英語のように単語の区切りが明示された分かち書き言語ではなく、非分かち書き言語であり、そのため、文書内の各文を単語に分割する必要がある。文を単語に分割し、各単語の品詞を推定することを形態素解析という。 ここでは、オープンソース形態素解析ソフトウェア MeCab(めかぶ)を使う. • http://taku910.github.io/mecab/ 2. 特徴抽出 分類問題を扱う際、一般に、データ中の、分類に利用する情報のことを特徴量と呼び、この特徴量をデータから抽出する作業を特徴抽出と呼ぶ。 文書の分類では、文書中の単語が特徴量として利用される。 文書内の各単語の出現頻度は、しばしば、単

                                                                  形態素解析の結果を利用してTF法により特徴抽出をする - Qiita
                                                                • Jagger - C++ implementation of Pattern-based Japanese Morphological Analyzer

                                                                  Jagger - C++ implementation of Pattern-based Japanese Morphological Analyzer About Jagger is a fast, accurate, and space-efficient morphological analyzer [1] inspired by the dictionary-based longest matching for tokenization and the precomputation of machine-learning classifiers. Jagger applies patterns, which are extracted from morphological dictionaries and training data, to input from the begin

                                                                  • 自然言語処理におけるデータ前処理の性能検証 - Qiita

                                                                    はじめに 機械学習のシステム化に際して、データの前処理に要する時間やリソースを考慮し、設計に活かすノウハウが求められています。 本投稿では、自然言語を対象としたデータ前処理の概要と、感情極性分析の実装例であるchABSA-datasetにおけるデータ前処理を題材とした性能検証結果を紹介します。 投稿一覧 1. 自然言語処理とその前処理の概要 2. 自然言語処理におけるデータ前処理の性能検証 ... 本投稿 本投稿の目次は以下です。 3. 自然言語処理の前処理に必要となるリソースと処理時間の例 3.1 検証環境 3.2 実験内容 3.2.1 実験の流れ 3.2.2 分かち書きのライブラリ比較 (1) 依存ライブラリ (2) コード内での処理(関数)の呼び出し方 (3) コード内でのI/Oデータ形式 3.3 実験結果 3.4 実験結果の考察 まとめ 3. 自然言語処理の前処理に必要となるリソー

                                                                      自然言語処理におけるデータ前処理の性能検証 - Qiita
                                                                    • MacにMeCabとNEologdをインストールして、形態素解析する

                                                                      形態素解析を行う MeCab + IPA辞書で『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載という文を形態素解析してみます。 $ mecab 『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載 『 記号,括弧開,*,*,*,*,『,『,『 鬼 名詞,一般,*,*,*,*,鬼,オニ,オニ 滅 名詞,一般,*,*,*,*,滅,メツ,メツ の 助詞,連体化,*,*,*,*,の,ノ,ノ 刃 名詞,一般,*,*,*,*,刃,ハ,ハ 』 記号,括弧閉,*,*,*,*,』,』,』 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 吾 名詞,一般,*,*,*,*,吾,ワレ,ワレ 峠 名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ

                                                                        MacにMeCabとNEologdをインストールして、形態素解析する
                                                                      • MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】

                                                                        こんにちは!monachan_papaです。 前回までで、形態素解析の基本的なことについてやりました。 男は黙ってサッポロビールを形態素解析してみよう!【Pythonによる自然言語処理超入門】 川端康成『雪国』の冒頭を形態素解析してみよう!【Pythonによる自然言語処理超入門】 さて、このシリーズで使っている形態素解析器はMeCabを採用していますが、MeCabの辞書について今回ひとつ取り上げてみたいと思います。 MeCabの辞書とは? 形態素解析は、辞書によって行われています。とてもたくさんの単語情報を網羅したデータベースみたいなものです。このデータベースがあるからこそ初めて形態素解析ができるといえるでしょう。 import MeCab t = MeCab.Tagger() print(t.parse('男は黙ってサッポロビール')) 男 名詞,一般,*,*,*,*,男,オトコ,オトコ

                                                                          MeCab辞書カスタムで恋の鶴舞線の歌詞を形態素解析する【Pythonによる自然言語処理超入門】
                                                                        • MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue

                                                                          大体はこの通りにcsvのカラムを作り直せば大丈夫ですが、似ているようで違うので、何点か注意が必要です。 見出し (TRIE 用) Sudachiには文字の正規化が必要です(参考)。 左連接ID・右連接ID Sudachiのドキュメントにunidic-mecab 2.1.2 の左文脈ID・右文脈ID参考にするように、とあるので、使っているunidic-mecabのバージョンを確認しなければいけません(UniDicの左文脈ID)。 MeCabにとっては-1は連接IDを自動推定する特殊な値です。 コスト MeCabのコストには制限がありませんが、Sudachiのコストの範囲は32767~-32767の制限があるので調整が必要です。 Sudachiにとっては-32768はコストを自動推定する特殊な値です。 品詞1~4 品詞も連接IDと同様、MeCabのunidic-mecab 2.1.2の品詞体系

                                                                            MeCab辞書をSudachi辞書に変換して固有表現抽出 - deepblue
                                                                          • php-mecabインストール - Qiita

                                                                            # tar xvzf mecab-0.996.tar.gz # cd mecab-0.996 # ./configure --enable-utf8-only --enable-mutex ### エラーが出る場合は ./configure --with-charset=utf8 --enable-utf8-only のオプションに変更 # make # make check # make install # tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz # cd mecab-ipadic-2.7.0-20070801 # ./configure --with-charset=utf8 # make # make install # git clone https://github.com/rsky/php-mecab # cd php-mecab

                                                                              php-mecabインストール - Qiita
                                                                            • Google ColabにMeCabとipadic-NEologdをインストールする - Qiita

                                                                              1.はじめに Google Colab に MeCab と ipadic-NEologd をインストールしようと思ったら意外に手間取ったので備忘録として残します。 2.コード 色々なWeb情報を漁った結果、インストールには下記のコードがベストではないかと思います。 # 形態素分析ライブラリーMeCab と 辞書(mecab-ipadic-NEologd)のインストール !apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null !git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null !echo yes | mecab-ipadic-

                                                                                Google ColabにMeCabとipadic-NEologdをインストールする - Qiita
                                                                              • Huggingface Transformers 入門 (10) - 日本語の感情分析|npaka

                                                                                「Huggingface Transformers」による日本語の感情分析方法をまとめました。 ・Huggingface Transformers 4.1.1 前回 1. Huggingface Transformers「Huggingface Transformers」は「自然言語理解」と「自然言語生成」の最先端の汎用アーキテクチャ(BERT、GPT-2など)と何千もの事前学習済みモデルを提供するライブラリです。 今回は以下の事前学習済みモデルを使います。 2. Huggingface Transformersのインストール「Anaconda」でPython 3.7の仮想環境を作成して以下のコマンドを実行します。 $ pip install torch torchvision $ pip install transformers[ja]3. Huggingface Transformer

                                                                                  Huggingface Transformers 入門 (10) - 日本語の感情分析|npaka
                                                                                • Pythonで形態素解析して韓国語学習 - Qiita

                                                                                  はじめに 私はK-POPが好きでよく聴くのですが、やはり日本語や英語の曲と比べると歌詞の意味がよく分からなくて十分に楽しめないという課題を抱えていました。 一から学習書を用いて勉強するのが王道かと思いますが、通常の学習書に載っている会話や単語を見てもあまりスッと入ってこなくて学習のモチベーションを保つのに苦労しました。 そこで、K-POPの歌詞から単語を抽出して覚えるために韓国語の形態素解析と単語別の翻訳をしてみようと思いました。 韓国語学習者の方にとって以外は少々読みづらい内容となっているかもしれませんがご容赦ください。 利用技術 プログラミング言語: Python 形態素解析: mecab-ko, open-korean-text Pythonライブラリ: KoNLPy, python-mecab-ko 翻訳: GASのLanguageApp KoNLPyとは https://konl

                                                                                    Pythonで形態素解析して韓国語学習 - Qiita

                                                                                  新着記事