並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

neologdの検索結果1 - 16 件 / 16件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

neologdに関するエントリは16件あります。 自然言語処理pythondocker などが関連タグです。 人気エントリには 『[自然言語処理] NEologdを自前で改造して使っている話』などがあります。
  • [自然言語処理] NEologdを自前で改造して使っている話

    NEologdは新語や固有名詞に強い形態素解析用辞書として有名ですが、2020年の9月を最後に更新がありません。実用上の問題は大きく分けて2つあります。 新語・固有名詞が供給されない 不具合が修正されない 1つ目も重要なのですが、今回フォーカスするのは2つ目の点です。 私は個人開発でazooKeyという日本語入力アプリケーションを開発しています。かな漢字変換用辞書の生成の目的でNEologdを使っているのですが、この用途では品詞と読みの正確性がクリティカルになってきます。しかしNEologdの辞書では「ヤバい」が固有名詞になっていたり、「光GENJI」に「イチ」と読みがついていたりします。これは回り回ってかな漢字変換の性能に影響を与えるので、可能な限り修正したい不具合です。 しかし、更新がない以上、自前でどうにかするしかありません。 不具合への対処 当初この手の問題は実行時に動的に適用する

      [自然言語処理] NEologdを自前で改造して使っている話
    • 形態素解析器の比較アプリを作ってみた【NEologd】 - Qiita

      形態素解析器ごとに結果を比較できるアプリ作ってみました。 streamlitで作ってます。HuggingFace Spaceなら16GB RAM と 8 CPUが無料で使えておすすめです。 import os os.system('git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git && cd mecab-ipadic-neologd && ./bin/install-mecab-ipadic-neologd -n -y -u -p $PWD') os.system('git clone --depth 1 https://github.com/neologd/mecab-unidic-neologd.git && cd mecab-unidic-neologd && ./bin/install-m

        形態素解析器の比較アプリを作ってみた【NEologd】 - Qiita
      • GitHub - p-geon/ja-tokenizer-docker-py: Mecab + NEologd + Docker + Python3

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - p-geon/ja-tokenizer-docker-py: Mecab + NEologd + Docker + Python3
        • Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator

          - はじめに - RustでNLP、機械学習どこまでできるのか試した時のメモ。 Pythonどこまで脱却できるのか見るのも兼ねて。 コードは以下に全部置いてある。 GitHub - vaaaaanquish/rust-text-analysis: rust-text-analysis - はじめに - - 形態素解析 - neologd lindera - Text Processing、Embedding - - XGBoost - - 実験 - - おわりに - - 形態素解析 - Rustの形態素解析実装を調べると、lindera-morphology/lindera を使うのが有力候補となりそうである。sorami/sudachi.rs や agatan/yoin 、 nakagami/awabi のような実装もあるがメンテは止まっている様子である。 linderaメンテナのブログ

            Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator
          • AWS Lambda with Container Image で MeCab (NEologd) を動かしてみたCCT-recruit | CCT-recruit

            ちなみにLambda with Container Imageによるメリットにはサイズ制限以外もりますが、今回は主にサイズ制限に着目しています。 LambdaでMeCabを利用する場合の課題 LambdaでMaCabを利用しようとした場合にファイルサイズ制限の影響を受けるのが辞書ファイルです。 MeCab本体のサイズはそこまで大きくないのですが、辞書にNEologdを利用するとビルド済みのバイナリデータのサイズが1GBを超えてきます。 ビルド時のオプションで登録単語数を減らしても700MB程度のバイナリデータになります。 1GBのバイナリデータとなるとLambda Layersのサイズ制限である250MBを軽く超えるため、今まではEFSを利用して解決するしかありませんでした。 といってもLambdaにEFSがマウント可能になったのが2020年6月なので「そんな処理はLambdaでやることじ

            • 形態素解析器比較 Sudachi vs Mecab+Neologd - tdualのブログ

              ブレインパッドさんのpodcast「白金鉱業.FM」の聞いてたらSudachiの開発の話を聞いて興味が出たので触ってみました。 shirokane-kougyou.fm (「白金鉱業.FM」はデータ分析現場の生の声が聴けるのでなかなか面白いです。) Sudachiとは 使ってみる 比較 データセット 使用したモジュール トークナイザー トークナイザー使用例 辞書の統計的フィルター ベクトル化 分類器 結果 Sudachi(モードA) Sudachi(モードB) Sudachi(モードC) Mecab+Neologd 速度について その他 品詞の付与について 終わりに Sudachiとは ワークスアプリケーションズ徳島人工知能NLP研究所でオープンソース開発されている形態素解析器です。 www.worksap.co.jp 形態素解析器とは日本語を単語に分かち書きしたり、品詞を特定する機能を有

                形態素解析器比較 Sudachi vs Mecab+Neologd - tdualのブログ
              • Ubuntu 20.04 LTSにMeCab(mecab-ipadic-neologd)/CaboChaのインストール - Qiita

                前提 この記事は、Ubuntu 20.04LTSにMeCab(mecab-ipadic-neologd)とCaboChaをインストールし、pythonで使用できるようにするまでをまとめた記事です。 ※本記事は以下の記事を大いに参考にさせて頂き、インストール場所など補足で記述しております。 ubuntu 18.10 に mecab をインストール CabochaのUbuntuへのインストール(Pythonでテスト) curlやwgetで公開済みGoogle Driveデータをダウンロードする MeCab(mecab-ipadic-neologd)のインストール MeCabのインストール まずMeCabをインストールします

                  Ubuntu 20.04 LTSにMeCab(mecab-ipadic-neologd)/CaboChaのインストール - Qiita
                • MacにMeCabとNEologdをインストールして、形態素解析する

                  形態素解析を行う MeCab + IPA辞書で『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載という文を形態素解析してみます。 $ mecab 『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載 『 記号,括弧開,*,*,*,*,『,『,『 鬼 名詞,一般,*,*,*,*,鬼,オニ,オニ 滅 名詞,一般,*,*,*,*,滅,メツ,メツ の 助詞,連体化,*,*,*,*,の,ノ,ノ 刃 名詞,一般,*,*,*,*,刃,ハ,ハ 』 記号,括弧閉,*,*,*,*,』,』,』 は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 吾 名詞,一般,*,*,*,*,吾,ワレ,ワレ 峠 名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ

                    MacにMeCabとNEologdをインストールして、形態素解析する
                  • 【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita

                    【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出するPythonmecab自然言語処理 科研費申請書を書いている研究者のみなさま、お疲れ様です。 ご存知の通り、過去に採択された研究は科研費データベースに載っています。が、全部見るのはなかなか大変です。 過去の傾向をざっくり把握してみよう! ということで、今回は科研費データベースの研究の概要から自然言語処理でキーワードを抽出してみました。形態素解析パッケージMeCabと専門用語抽出ツールのtermextractを使っています。 環境構築 PythonとJupyter Notebookを使います。 OSなど MacOS Mojave 10.14.5 Anaconda 2020.02 Python 3.7.6 Jupyter Notebook 6.0.3

                      【自然言語処理】科研費データベースからMeCab-ipadic-neologdとtermextractでキーワードを抽出する - Qiita
                    • DockerでPython公式イメージ + MeCab + NEologd辞書 - Qiita

                      MeCabについて mecab-ipadic-neologd 形態素解析がなんぞや?MeCabとはなんぞや?という疑問に関しては他の方のブログでも詳しく解説されていると思いますので、ここでは省きます。 MeCabの辞書ですが、デフォルトのもの以外では、おそらく多くの人が使っているものとしてmecab-ipadic-neologdが挙げられるかと思います。LINE株式会社さんが開発しているOSSで新語・固有表現に強いMeCabの辞書で、今尚頻繁に更新されています。ちなみに2021年の新語・流行語大賞に輝いたリアル二刀流もNEologdにかかればこんな感じ $ mecab -d {デフォルト辞書のパス} リアル二刀流 リアル 名詞,固有名詞,一般,*,*,*,リアル,リアル,リアル 二刀流 名詞,一般,*,*,*,*,二刀流,ニトウリュウ,ニトーリュー $ mecab -d {mecab-ip

                        DockerでPython公式イメージ + MeCab + NEologd辞書 - Qiita
                      • 【Node.js】kuromoji.js + mecab-ipadic-neologdで形態素解析して遊ぶ - Qiita

                        スクレイピングした文章を形態素解析したい! nodeではjava用に書かれたkuromojiを移植したkuromoji.jsを使用するのが簡単っぽい。(自分調べ) しかしWeb上の文字は日々変化し、思ったように解析できない場合も多い。 そこでWeb上の資源を解析して作られている新語・固有表現に強いmecab-ipadic-NEologdという辞書も導入する。 (+ベースはipadic辞書) MeCab: Yet Another Part-of-Speech and Morphological Analyzer kuromoji - japanese morphological analyzer mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd 日本語形態素解析エンジンKuromojiについて

                          【Node.js】kuromoji.js + mecab-ipadic-neologdで形態素解析して遊ぶ - Qiita
                        • Google ColabにMeCabとipadic-NEologdをインストールする - Qiita

                          1.はじめに Google Colab に MeCab と ipadic-NEologd をインストールしようと思ったら意外に手間取ったので備忘録として残します。 2.コード 色々なWeb情報を漁った結果、インストールには下記のコードがベストではないかと思います。 # 形態素分析ライブラリーMeCab と 辞書(mecab-ipadic-NEologd)のインストール !apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null !git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null !echo yes | mecab-ipadic-

                            Google ColabにMeCabとipadic-NEologdをインストールする - Qiita
                          • Mecab + mecab-ipadic-NEologd な形態素解析 API サーバーを作った - Qiita

                            Mecab を触っていたらいい感じに汎用的な形態素解析 API サーバーができたので GitHub に公開しました。 動機 品詞・形態素解析エンジンである Mecab と固有表現に強い辞書 mecab-ipadic-NEologd を、チャットボットを動かしているコンテナにインストールして使っていましたが、辞書のサイズが大きくて取り回しが悪いので、マイクロサービス的に分離してみることにしました。 概要 文章を投げると単語ごとに品詞・形態素解析をしてくれます コンテナで動きます AMD64 / ARM64 対応 Mecab の出力結果を key: value の形式に直して返すのでわかりやすい 使ってみる docker run します。

                              Mecab + mecab-ipadic-NEologd な形態素解析 API サーバーを作った - Qiita
                            • mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita

                              記事の内容は古くなっていると思います。 最新の状態はGitHubで確認してください。 最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。 最近の記事 青空文庫の書籍をDoc2Vecでクラスタリング 文春オンラインの記事をスクレイピング&ネガポジ分析 その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。 今回は私が使っているDockerfileを公開いたします。 ベース:ubuntu 入っているもの:anaconda,mecab,NEologd,gensim,janome,BeautifulSoupなど 工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。 参考 かめさんのudemy Docker講座・・・私のDocke

                                mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita
                              • Elasticsearch7.2でkuromoji_ipadic_neologd_tokenizerのsearchモードとsynonym_token_filterを一緒に使うとエラーが出る - 焼肉が食べたい

                                TL;DR Elasticsearch7.2でKuromoji IPADic Neologd TokenizerのsearchモードとSynonym Token Filterを使うとエラーが出る。 エラーを回避するには、Synonym Token Filterを利用するanalyzerではkuromoji_tokenizerのnormalモードを使う 発生した問題 ElasticsearchでKuromoji IPADic Neologd TokenizerのsearchモードとSynonym Token Filterを一緒に使ったところ、インデックス作成時にエラーが出た。 /var/log/elasticsearch/[cluster name].logのエラー エラーメッセージ(クリックして表示) [2019-09-19T05:57:48,919][DEBUG][o.e.a.a.i.t

                                  Elasticsearch7.2でkuromoji_ipadic_neologd_tokenizerのsearchモードとsynonym_token_filterを一緒に使うとエラーが出る - 焼肉が食べたい
                                • 3. Pythonによる自然言語処理 2-2. 共起ネットワーク[mecab-ipadic-NEologd] - Qiita

                                  3. Pythonによる自然言語処理 2-2. 共起ネットワーク[mecab-ipadic-NEologd]Pythonmecab自然言語処理networkxmecab-ipadic-neologd mecab-ipadic-NEologdは、MeCab標準の辞書を補完するかたちでカスタマイズされた辞書です。 Web 上の多数の言語資源から語句が追加されたもので、新語や複合語、慣用的な表現などに対応しています。 上記のとおり、MeCab標準では「個人」と「主義」に分割されてしまいますが、mecab-ipadic-NEologdでは「個人主義」という一語として扱われています。 課題 mecab-ipadic-NEologdを使って、併せてストップワードの除去を行い、共起ネットワークに表現するという一連の作業を行ないます。 1. テキストデータの準備 ⑴ テキストデータの読み込み コーパスには

                                    3. Pythonによる自然言語処理 2-2. 共起ネットワーク[mecab-ipadic-NEologd] - Qiita
                                  1

                                  新着記事