並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 47件

新着順 人気順

ipadicの検索結果1 - 40 件 / 47件

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    • neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic

      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

        neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
      • mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd
        • IPADIC(IPA辞書)とはなにものか?

          ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

            IPADIC(IPA辞書)とはなにものか?
          • MeCab システム辞書への単語追加(mecab-ipadic-neologd)

            MeCab 辞書には、以前の記事でご紹介した「ユーザ辞書」と「システム辞書」の2種類があります。ユーザ辞書への単語の追加は、手軽な反面、解析速度が落ちるといったデメリットもあります。そこで今回は、MeCab の「システム辞書」に単語を追加する方法をご紹介します。また、最近話題の新語辞書 mecab-ipadic-neologd もシステム辞書に追加してみました。 作業の流れ MeCab のシステム辞書は1つのみ、というルールがあるため、IPA辞書のソースディレクトリに、追加したい単語のCSVファイルを配置して、システム辞書を作成します。また、追加する単語のコストは、mecab-ipadicのモデルファイル使った自動推定機能を使います。 下準備 MeCab と IPA辞書をインストールしておきます。 nkf コマンドのインストール IPA辞書の文字コードを、UTF-8 に変換するため、nkf

              MeCab システム辞書への単語追加(mecab-ipadic-neologd)
            • 新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた

              このようにすることで、 そもそも mecab-ipadic-NEologd に意味はあるの? mecab-ipadic-NEologd で分かち書きして悪影響は無いの? mecab-ipadic-NEologd を週2回も更新することに意味はあるの? などの典型的な疑問について考察する材料を得たいと考えました。 学習器と特徴ベクトルの作り方 学習器は LIBLINEAR を使用しました。LIBLINEAR で学習するときのパラメーターですが、今回は辞書やデータごとに最適なパラメーターを探すことが今回の目的ではありません。そこで、別の期間のデータと MeCab 用の辞書を用意して、事前に実験と相対的に同様なデータと辞書の関係を作って探索することにしました。その結果、「s=5, c=0.8, B=-1」という設定が比較対象の UniDic にとって総合的に有利だったのでそれを採用しました。 各

                新語・固有表現に強い「mecab-ipadic-NEologd」の効果を調べてみた
              • mecab-ipadic-neologdがすごいという話 - kivantium活動日記

                [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しましたという記事が話題になっていたのでmecab-ipadic-neologdを試してみました。 インストール READMEを見れば分かりますが一応メモ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadic-neologd ./bin/install-mecab-ipadic-neologdでインストールできます。 インストール先は echo `mecab-config --dicdir`"/mecab-ipadic-neolo

                  mecab-ipadic-neologdがすごいという話 - kivantium活動日記
                • MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介

                  「mecab-ipadic-neologdのご紹介」のまとめ - mecab-ipadic-NEologd は IPADIC を拡張した mecab のシステム辞書 - 新語・固有表現などを読み仮名・原型付きで168万組を再録(異表記な重複エントリ込) - 最低月2回アップデート(初旬・中旬) - Rを使ったテキストマイニングに今後必須Read less

                    MeCab の新語・固有表現辞書 mecab-ipadic-NEologd のご紹介
                  • 新語が追加されたmecab-ipadic-neologd辞書 - 自然言語処理 on Mac

                    日本語形態素解析エンジンMeCabで標準的に使われているIPA辞書に新語を追加したmecab-ipadic-neologdが公開されました: [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました これまでもWikipediaやはてなキーワードからとりだした単語をMeCabの辞書に登録する取り組みはいろいろとありました: livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク MeCabの辞書にはてなキーワードを追加しよう - 不可視点 最近のJUMANの辞書にもWikipediaやWebからとられた単語が登録されています: JUMAN - KUROHASHI-KAWAHARA LAB mecab-ipadic-neologdは新語データを定期的に更新して改善を続ける予定ということで

                      新語が追加されたmecab-ipadic-neologd辞書 - 自然言語処理 on Mac
                    • mecab-ipadic-NEologd の効果的な使い方

                      mecab-ipadic-NEologd は IPA 辞書を拡張した mecab のシステム辞書 新語・固有表現などを160万語以上再録 - 読み仮名・原型付きで(異表記の重複込み) 最低月2回アップデート(初旬・中旬) - Apache License 2.0 なOSSなので安心 辞書はタスクに応じて使い分けると効果UP !! - 5種類のタスク向けの選択例 + 2つの前処理をご紹介 - NEologd は特徴量作成とテキストマイニングに最適Read less

                        mecab-ipadic-NEologd の効果的な使い方
                      • 🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)

                        PyData Tokyo 05 でのLTのプレゼン資料です。 絵文字に対応した mecab-ipadic-NEologd は以下からダウンロードできます。 https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md 以下は資料のまとめです。 - mecab-ipadic-NEologdで絵文字に読みを付与するためのエントリを”試験的”に追加したという話 -mecab-ipadicと併用すれることで、絵文字の読み・原型の文字列で検索が可能になりました - 応用 => 言語処理・音声処理・コンテンツ監視等が考えられます - 今後アノテーションは徐々に改善していきますRead less

                          🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
                        • mecab-ipadic-neologd対応のRESTful MeCabサーバ用Dockerfile - Qiita

                          以前mecab-python周りは導入が面倒くさかったのでDockerfileにまとめておこう。 REST APIの部分はこちらを参考にFlaskで実装しました。 ソースはgithubにあります。 ついでにdocker-composeも使ってみたらこれは便利。今回みたいにコンテナ1つだとあまり旨味はないけど。 [2016-10-07 追記] 辞書ファイルの更新について追記。 [2018-03-11 追記] フロントエンドを追加。 FROM ubuntu:16.04 RUN apt-get update \ && apt-get install python3 python3-pip curl git sudo cron -y \ && apt-get clean \ && rm -rf /var/lib/apt/lists/* WORKDIR /opt RUN git clone http

                            mecab-ipadic-neologd対応のRESTful MeCabサーバ用Dockerfile - Qiita
                          • mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

                            注意) このエントリでは、mecab-ipadic-neologdをLucene Kuromojiに適用するにあたり、2つほど問題が発生したのですが、作者の@overlastさんにそのうちのひとつを対応いただきました。 修正版mecab-ipadic-neologdを使ってLucene Kuromojiに適用するエントリは、以下を見るようにしてください。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 こちらのエントリは、備忘録的に残っているだけです。 以降は、それを踏まえた上で読まれますよう。とりあえずLucene Kuromojiに適用したい場合は、上記のエントリをご覧ください。 先日、ちょっと気になるエントリが世の中に出ていま

                              mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
                            • MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ

                              mecab-ipadicのCRF学習モデルが追加されたことにより、辞書に単語を追加しやすくなったようだ。 http://sourceforge.jp/projects/mecab/lists/archive/users/2012-June/000456.html 以前のMeCabの場合、単語追加をする場合は、追加したい単語と似ている単語のコスト値からなんとなく予測して追加する必要があって、結構やりにくかった。なので、どのぐらいやりやすくなったかを早速試してみた。 まず、自分のローカルにMeCabをインストールした。 また、ipadicのモデルファイルしかないようなので、ipadic辞書を入手する。 http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.tar.gz&can=2&q= http://code.goog

                                MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ
                              • ipadicのライセンスの件 - mir the developer

                                大きな誤解をしていたようです。某所から「ipadic(IPA辞書)はIPAライセンスだから商用利用ができない」と聞いていたので、そうなんだと思ってここ1年同じように書いたり/話したりしてきたのですが、ipadicは商用利用の禁止とかしてないですね(法律の専門家ではないので断定はできないですが)。 Tritonnのバイナリパッケージングについていろいろ検討していて「mecab-ipadic入れたいけど、入れちゃうと商用利用できなくなるんだよなぁ」とまた悩んでいたわけです。でもちょっと気になって、mecab-ipadicのCOPYINGを初めて読んでみたのですが、COPYINGにはIPA(情報処理推進機構)に著作権があるなんて一言も書いていない。というかまず著作権保有者を名乗っているのは、奈良先端科学技術大学院大学です。IPAという文字は一言も入っていない。 どんな内容が書いてあるかというと、

                                  ipadicのライセンスの件 - mir the developer
                                • IPAdic legacy プロジェクト日本語トップページ - OSDN

                                  形態素解析器 ChaSen 用辞書 形態素と品詞などの情報を持つ語彙表であり、 ChaSen で用いられるパラメータを含みます。 ダウンロード 最新リリース rpms ipadic-2.5.1-1.src (日付: 2007-03-11) rpms ipadic-2.5.0-1.src (日付: 2007-03-11) rpms ipadic-2.4.4-1.src (日付: 2007-03-11) rpms ipadic-2.4.3-1.src (日付: 2007-03-11) rpms ipadic-2.4.1-1.src (日付: 2007-03-11)

                                    IPAdic legacy プロジェクト日本語トップページ - OSDN
                                  • GitHub - codelibs/elasticsearch-analysis-kuromoji-ipadic-neologd: Elasticsearch's Analyzer for Kuromoji with Neologd

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - codelibs/elasticsearch-analysis-kuromoji-ipadic-neologd: Elasticsearch's Analyzer for Kuromoji with Neologd
                                    • 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀

                                      先日、このようなエントリを書きました。 mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150315/1426391366 mecab-ipadic-neologd自体については、こちら。 MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました http://diary.overlasting.net/2015-03-13-1.html このエントリでは、LuceneのKuromojiにmecab-ipadic-neologdを適用してみたのですが、2つの問題が出ました。 ひとつは、Kuromojiがmecab-ipadic-neologdのシード辞書に含まれる原形が15文字を超える単語を取り込めないこと。もうひとつは、同じくmecab-ipadic

                                        修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
                                      • NMeCab でも mecab-ipadic-neologd を使ってみた - しばやん雑記

                                        Twitter で新しい MeCab 用の辞書が公開されたことを知ったので、例によって NMeCab で試してみました。 [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました MeCab に付いている IPA 辞書はかなり更新されていないので新語に弱いですが、今回公開された新しい辞書は Wikipedia やはてなキーワードなどから新語を収録しているらしいです。これは素晴らしいですね。 この mecab-ipadic-neologd は Linux か OS X 上でビルドする必要があるみたいなので、適当に立ち上げてあった Ubuntu の仮想マシン上にインストールして、バイナリ辞書を Windows にコピーしてくることにします。 公開された辞書はインストール時に IPA 辞書をベースにしてコンパイルしてくれるみたいです。ちなみに辞書のサイズはコンパ

                                          NMeCab でも mecab-ipadic-neologd を使ってみた - しばやん雑記
                                        • Lucene Kuromojiに対して、mecab-ipadic-neologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀

                                          ここ2〜3日、ず〜っとmecab-ipadic-neologdの辞書をLucene Kuromojiに適用するという作業を延々と繰り替えしていました。 修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 が、けっこうな数の手順を踏むので、だんだん面倒になってきました…。 そこで、上記のエントリでやった手順をまとめたbashスクリプトを書きました。ビルド方法もだいたい決まったことですし。 ※完全に同じではありません エラートラップとかは大して入れていませんが、ご了承ください。 実行する前提条件として、以下がインストールされている必要があります。 MeCabをビルドできるソフトウェア(C++コンパイラ、iconv、xz) Git wget

                                            Lucene Kuromojiに対して、mecab-ipadic-neologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀
                                          • ipadic version 2.7.0 ユーザーズマニュアル : ipadic-ja.pdf

                                            • Java で Lucene Kuromoji + mecab-ipadic-neologd を使用した形態素解析 - Qiita

                                              dependencies { compile("org.codelibs:lucene-analyzers-kuromoji-ipadic-neologd:5.4.1-20160218") } repositories { mavenCentral() maven { url "http://maven.codelibs.org" } } import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.

                                                Java で Lucene Kuromoji + mecab-ipadic-neologd を使用した形態素解析 - Qiita
                                              • Atilika Kuromojiに対して、mecab-ipadic-NEologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀

                                                先日、Atilika Kuromojiの0.9.0がリリースされたようです。 kuromoji - japanese morphological analyzer オフィシャルサイトの記述は、0.7.7のままですが… Maven Centralからダウンロードできます。 http://search.maven.org/#search|ga|1|g%3A%22com.atilika.kuromoji%22 はてなで、うまくリンクにならん…。 で、このKuromojiですが、0.7.7の頃はダメだったものの、0.9.0からはmecab-ipadic-NEologdの辞書が適用できるようになったので、mecab-ipadic-NEologdをKuromojiに組み込んでビルドするbashスクリプトを書きました。 以前に作ったLucene Kuromojiにmecab-ipadic-NEologd

                                                  Atilika Kuromojiに対して、mecab-ipadic-NEologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀
                                                • [O] mecab-ipadic-NEologd v0.0.2 をリリースした

                                                  mecab-ipadic-NEologd v0.0.2 をリリースした Tweet [日記] 今日、6/23の朝 [2015-06-23] に、mecab-ipadic-NEologd の v0.0.2 をリリースしました🎉。 https://github.com/neologd/mecab-ipadic-neologd/releases/tag/v0.0.2 前回の v0.0.1 からの大きな差分は以下の5点です。 - 3ヶ月分の新語 - Unicode 6.0以前の絵文字に読みと品詞情報を付与 - IPA辞書に未再録で区切り間違う or 読みを付与できない副詞 - unk.defを変更して記号を記号,一般に - IPA辞書の一部のエントリの読み仮名誤りを修正 3ヶ月分の新語 v0.0.1以降に新しく再録したエントリは、diff以下で記録しています。 https://github.co

                                                  • Ubuntu 20.04 LTSにMeCab(mecab-ipadic-neologd)/CaboChaのインストール - Qiita

                                                    前提 この記事は、Ubuntu 20.04LTSにMeCab(mecab-ipadic-neologd)とCaboChaをインストールし、pythonで使用できるようにするまでをまとめた記事です。 ※本記事は以下の記事を大いに参考にさせて頂き、インストール場所など補足で記述しております。 ubuntu 18.10 に mecab をインストール CabochaのUbuntuへのインストール(Pythonでテスト) curlやwgetで公開済みGoogle Driveデータをダウンロードする MeCab(mecab-ipadic-neologd)のインストール MeCabのインストール まずMeCabをインストールします

                                                      Ubuntu 20.04 LTSにMeCab(mecab-ipadic-neologd)/CaboChaのインストール - Qiita
                                                    • debian(sarge) で mecab ipadic を utf-8に変換 - 覚書いろいろ

                                                      http://mm.apache.jp/pipermail/spamassassin-jp/2006-March/000081.html Debian パッケージでは辞書が最初EUC-JP で入りますが 以下のように変更できました cd /usr/share/mecab/dic/ipadic/ ファイルdicrc の内容charset = utf8に変更 この後このディレクトリのファイルを全てutf8へ変換 for i in * ; do mv $i $i.euc; nkf -w $i.euc > $i; done その後以下のコマンドで辞書をmecabに取り込む dpkg-reconfigure mecab-ipadic

                                                        debian(sarge) で mecab ipadic を utf-8に変換 - 覚書いろいろ
                                                      • 単語分かち書き辞書 『mecab-ipadic-NEologd』を 公開して得た知見について

                                                        • IPADIC(IPA辞書)とはなにものか?

                                                          ※私は言語処理に関する知識は無いので、あくまで「IPADICとは何ものなのか?」という点に絞ってのみ記述しています。まあ、ここまで突っ込んだのは戯れですが、一応の目的として現在から未来にわたって無料で入手できる形態素解析を使うに当たり、「メンテナンスが継続されている辞書」が入手できるかを調べたかったという意図もあります。 日本語を処理する上で形態素解析というのはわりと欠かせないものです。 Webのサービスでよく用いられている形態素解析器にはChaSenとmecabがありますが、これらのエンジンは何らかの辞書を利用して日本語を解析します。 ちなみに形態素解析器と言うのはChaSenの表現を帰りれば「形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。」ということです。形態素解析器の開発の歴史はMeCab の開発経緯をご覧ください。 ここでChaSenにもMeCabにも、標準

                                                            IPADIC(IPA辞書)とはなにものか?
                                                          • CodeLibs Lucene Kuromoji+mecab-ipadic-NEologdを使う - CLOVER🍀

                                                            Lucene Kuromoji+mecab-ipadic-NEologdのエントリを見かけるようになりましたが、個人的にちょっと気になるところがありまして。 Maven依存関係にこれを足せば使えるよ、というエントリを見かけますが <dependency> <groupId>org.codelibs</groupId> <artifactId>elasticsearch-analysis-kuromoji-neologd</artifactId> <version>2.1.1</version> </dependency> GitHub - codelibs/elasticsearch-analysis-kuromoji-neologd: Elasticsearch's Analyzer for Kuromoji with Neologd いや、それElasticsearchまで入ってるじゃ

                                                              CodeLibs Lucene Kuromoji+mecab-ipadic-NEologdを使う - CLOVER🍀
                                                            • Pythonからmecab-ipadic-neologdを使う - Qiita

                                                              やりたいこと 形態素解析にMeCabを使う http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html 新語辞書を使う https://github.com/neologd/mecab-ipadic-neologd/ Pythonスクリプト内で他のモジュールと組み合わせて使う 環境 OSX 10.10.5 Conda 3.19.0 Python 2.7.11 MeCab 0.996 Python 2.7 Condaを使う。 $ conda create -n py27con python=2.7 anaconda $ conda info -e $ source ~/.pyenv/versions/miniconda3-3.16.0/envs/py27con/bin/activate py27con

                                                                Pythonからmecab-ipadic-neologdを使う - Qiita
                                                              • MeCabのユーザー辞書にmecab-ipadic-NEologdを手動で追加する - Qiita

                                                                最近話題のMeCabの辞書mecab-ipadic-NEologdを使ってみたいと思いユーザー辞書に追加したので、その方法をまとめます。 mecab-ipadic-NEologdの作者の方がSlideShareでインストール方法を紹介していますが、システム辞書に入るのかユーザー辞書に入るのかを見るにはシェルの中身を読むのが面倒だったので手動でユーザー辞書に追加します。 http://www.slideshare.net/overlast/mecab-ipadicneologdtokyordf-46497035 このブログを参考にしました。(このブログではシステム辞書に登録) https://blog.apar.jp/linux/2796/ あとは、MeCab公式のやり方を参考にしました。 http://taku910.github.io/mecab/dic.html 実際の手順 まずはgi

                                                                  MeCabのユーザー辞書にmecab-ipadic-NEologdを手動で追加する - Qiita
                                                                • Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀

                                                                  Lucene Kuromojiとの組み合わせで、時々エントリを書いていますmecab-ipadic-NEologdですが、以前Kuromoji(Atilika)との組み合わせでは失敗したことがあります。 Kuromoji(Atilika)に、mecab-ipadic-neologdの辞書を適用できない?という話 http://d.hatena.ne.jp/Kazuhira/20150318/1426690374 Kuromoji http://www.atilika.org/ Kuromoji(GitHub) https://github.com/atilika/kuromoji で、このAtilikaのKuromojiなのですが、最近更新が活発なようで、masterブランチは0.9系になっています。 AtilikaのMavenリポジトリには、相変わらず0.7.7しかないのですが。 htt

                                                                    Kuromoji(Atilika)0.9-SNAPSHOTに、NEologd(ipadic、unidic)を適用してみた話 - CLOVER🍀
                                                                  • 【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita

                                                                    【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出するPythonmecab自然言語処理 科研費申請書を書いている研究者のみなさま、お疲れ様です。 ご存知の通り、過去に採択された研究は科研費データベースに載っています。が、全部見るのはなかなか大変です。 過去の傾向をざっくり把握してみよう! ということで、今回は科研費データベースの研究の概要から自然言語処理でキーワードを抽出してみました。形態素解析パッケージMeCabと専門用語抽出ツールのtermextractを使っています。 環境構築 PythonとJupyter Notebookを使います。 OSなど MacOS Mojave 10.14.5 Anaconda 2020.02 Python 3.7.6 Jupyter Notebook 6.0.3

                                                                      【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita
                                                                    • 【Node.js】kuromoji.js + mecab-ipadic-neologdで形態素解析して遊ぶ - Qiita

                                                                      スクレイピングした文章を形態素解析したい! nodeではjava用に書かれたkuromojiを移植したkuromoji.jsを使用するのが簡単っぽい。(自分調べ) しかしWeb上の文字は日々変化し、思ったように解析できない場合も多い。 そこでWeb上の資源を解析して作られている新語・固有表現に強いmecab-ipadic-NEologdという辞書も導入する。 (+ベースはipadic辞書) MeCab: Yet Another Part-of-Speech and Morphological Analyzer kuromoji - japanese morphological analyzer mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd 日本語形態素解析エンジンKuromojiについて

                                                                        【Node.js】kuromoji.js + mecab-ipadic-neologdで形態素解析して遊ぶ - Qiita
                                                                      • MeCab(+IPADIC) + Python3.8 を AWS Lambda 上で利用する - Qiita

                                                                        2020年10月13日 Python3.8 に対応しました はじめに 形態素解析を行うライブラリ MeCab を用いたアプリケーションをサーバーレスな環境に乗せる機会があり、今後も増えてきそうなので自分用のメモの意味も含めその手順を記載しました。 MeCabをLambda上で実行するためには、Lambdaの実行環境と全く同じ環境でMeCabをビルドし、関数パッケージに含めてデプロイする必要があります。 今回は、DockerとLambdaビルド用のイメージを使って、簡単にMeCabをビルドする方法を紹介します。 ※下記のリポジトリよりクローンし、READMEの手順を実行すれば簡単に利用できます。 [GitHub] noyoikw/mecab-python3-lambda 各ファイルの解説 手順の前に、最終的なディレクトリの構成と各ファイルの役割について説明します。 ディレクトリ構成 このサン

                                                                          MeCab(+IPADIC) + Python3.8 を AWS Lambda 上で利用する - Qiita
                                                                        • dockerでmecab-ipadic-neologdなmecabを試すためのコンテナ作った - Less is Best

                                                                          久しぶりのブログ。 mecabを久しぶりに弄ろうかと思ったら便利なやつが出てたのでDockerで簡単にインストールできるようにしておきました。 github.com googlecode.comを参照しているので2016/01/25には使えなくなると思いますが、とりあえず試すには使えると思います。 以下のコードをコピペでDockerさえ整っていればすぐに使えます。 code git clone https://github.com/yss44/docker-mecab-ipadic-neologd cd docker-mecab-ipadic-neologd chmod +x build run ./build echo "10日放送の「中居正広のミになる図書館」(テレビ朝日系)で、SMAPの中居正広が、篠原信一の過去の勘違いを明かす一幕があった。" | ./run result 10日

                                                                            dockerでmecab-ipadic-neologdなmecabを試すためのコンテナ作った - Less is Best
                                                                          • Amazon Linux (t2.micro)にMecab + mecab-ipadic-NEologdをインスールするとエラーが出る(解決した) - Qiita

                                                                            reading ./mecab-user-dict-seed.20170123.csv ... /home/webmanager/mecab-0.996/mecab-ipadic-2.7.0-20070801/mecab-ipadic-neologd/bin/../libexec/make-mecab-ipadic-neologd.sh: 466 行: 25644 中止 ${MECAB_LIBEXEC_DIR}/mecab-dict-index -f UTF8 -t UTF8 こんな感じのエラーが出るんですよね。もともとmecabをyumでインストールしていて、UTF8の問題なのかなぁといろいろ調べていました。しあkし、結局はファイルをコピーしている時にメモリ不足でエラーが起こるみたいです。 ですので、対処方法はスワップを作ってあげればオッケーです

                                                                              Amazon Linux (t2.micro)にMecab + mecab-ipadic-NEologdをインスールするとエラーが出る(解決した) - Qiita
                                                                            • Google ColabにMeCabとipadic-NEologdをインストールする - Qiita

                                                                              1.はじめに Google Colab に MeCab と ipadic-NEologd をインストールしようと思ったら意外に手間取ったので備忘録として残します。 2.コード 色々なWeb情報を漁った結果、インストールには下記のコードがベストではないかと思います。 # 形態素分析ライブラリーMeCab と 辞書(mecab-ipadic-NEologd)のインストール !apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null !git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null !echo yes | mecab-ipadic-

                                                                                Google ColabにMeCabとipadic-NEologdをインストールする - Qiita
                                                                              • NAIST-jdic/IPADIC

                                                                                IPA品詞体系に基づく 表記ゆれ/複合語情報を保持する IPADIC のライセンス問題(ICOT 条項) を全数チェックにより解決したものが NAIST-jdic メンテナンスされていない 辞書のフィールド (表層例) 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用型(ctype) 活用形(cform) 原形 読み 発音

                                                                                • Mecab + mecab-ipadic-NEologd な形態素解析 API サーバーを作った - Qiita

                                                                                  Mecab を触っていたらいい感じに汎用的な形態素解析 API サーバーができたので GitHub に公開しました。 動機 品詞・形態素解析エンジンである Mecab と固有表現に強い辞書 mecab-ipadic-NEologd を、チャットボットを動かしているコンテナにインストールして使っていましたが、辞書のサイズが大きくて取り回しが悪いので、マイクロサービス的に分離してみることにしました。 概要 文章を投げると単語ごとに品詞・形態素解析をしてくれます コンテナで動きます AMD64 / ARM64 対応 Mecab の出力結果を key: value の形式に直して返すのでわかりやすい 使ってみる docker run します。

                                                                                    Mecab + mecab-ipadic-NEologd な形態素解析 API サーバーを作った - Qiita