並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 14 件 / 14件

新着順 人気順

neologd辞書の検索結果1 - 14 件 / 14件

  • mozc-utの公開の終了といろいろについての所感

    どういうことだってばよ Linux 上の日本語入力システムで一番メジャーといえる mozc(Google 日本語入力のオープンソース版)向けの辞書として公開されていた、mozc-ut の公開を作者が終了してしまいました。それに伴ってディストリビューションにパッケージの公開をしている人に削除が求められています。自分の知る限りでは AUR でしかパッケージングされていないので、その部分の影響は少なそうですが、かなりメジャーな mozc の辞書として知られていたので、影響が大きそうだと思いまとめることにしました。(私事で恐縮ですが、mozc-ut を利用していたのでまあまあなショックがあります) 発端 山田ハヤオさんの 2 つのツイートが作者のサイトで原因としてあげられています。 作者は 1 つめのツイートについて 山田ハヤオさんが「UT 辞書はライセンスに問題があってまともではない」と書いてい

      mozc-utの公開の終了といろいろについての所感
    • Mozc UT Dictionaries

      Overview Mozc UT dictionaries are additional dictionaries for Mozc. Press the Star button on GitHub They need more Stars. mozc: 1930 Stars fcitx5: 1129 Stars fcitx5-mozc: 82 Stars merge-ut-dictionaries: 40 Stars Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs License mo

      • Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator

        - はじめに - RustでNLP、機械学習どこまでできるのか試した時のメモ。 Pythonどこまで脱却できるのか見るのも兼ねて。 コードは以下に全部置いてある。 GitHub - vaaaaanquish/rust-text-analysis: rust-text-analysis - はじめに - - 形態素解析 - neologd lindera - Text Processing、Embedding - - XGBoost - - 実験 - - おわりに - - 形態素解析 - Rustの形態素解析実装を調べると、lindera-morphology/lindera を使うのが有力候補となりそうである。sorami/sudachi.rs や agatan/yoin 、 nakagami/awabi のような実装もあるがメンテは止まっている様子である。 linderaメンテナのブログ

          Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator
        • 2021年初頭に SKK を Windows/Mac で Google 日本語入力からの候補取得といっしょに絵文字まで変換して使うための方法 - あじーん-0.0.2-SNAPSHOT

          前提・したいこと いろいろしたいこと盛り沢山。 動作させる環境としては Windows10 の WSL2 で動作させたい WSL2 と VcXsrv で動かしている Emacs の ddskk からも (できるだけ) 利用したい でも Mac でもできるだけ同じように環境を用意したい そして動作自体には 辞書に無い未知語は候補を Google 日本語入力 (Google Japanese Input) の API から取得したい 辞書に有る語の場合は辞書から候補を取得して可能な限り高速に変換したい 絵文字も入力したい とぜいたくな感じ。2021 年、令和三年ですからね。 作業内容・手順 SKK のインストール Windows10 では動作も軽快で安定感抜群な CorvusSKK を利用させていただいてます。 github.com リリースから最新のインストーラーをダウンロードしてきてインス

            2021年初頭に SKK を Windows/Mac で Google 日本語入力からの候補取得といっしょに絵文字まで変換して使うための方法 - あじーん-0.0.2-SNAPSHOT
          • DockerでPython公式イメージ + MeCab + NEologd辞書 - Qiita

            MeCabについて mecab-ipadic-neologd 形態素解析がなんぞや?MeCabとはなんぞや?という疑問に関しては他の方のブログでも詳しく解説されていると思いますので、ここでは省きます。 MeCabの辞書ですが、デフォルトのもの以外では、おそらく多くの人が使っているものとしてmecab-ipadic-neologdが挙げられるかと思います。LINE株式会社さんが開発しているOSSで新語・固有表現に強いMeCabの辞書で、今尚頻繁に更新されています。ちなみに2021年の新語・流行語大賞に輝いたリアル二刀流もNEologdにかかればこんな感じ $ mecab -d {デフォルト辞書のパス} リアル二刀流 リアル 名詞,固有名詞,一般,*,*,*,リアル,リアル,リアル 二刀流 名詞,一般,*,*,*,*,二刀流,ニトウリュウ,ニトーリュー $ mecab -d {mecab-ip

              DockerでPython公式イメージ + MeCab + NEologd辞書 - Qiita
            • 日本語入力Vimプラグインを作ったので自慢します

              また、Shiftキーを押しながらのキー入力が負担になることの対策として、stickyという仕組みも用意されています。 このキーを押すと、次のキーがShiftされた扱いになります。以下は;をstickyとした例です。 コンセプト 上でSKKライクと書いていますが、tuskkはあくまで日本語入力補助プラグインを指向しており、SKK実装を作ることを目的としていません。 他のSKK実装でできることを諦めている部分があるため、既存のSKKに慣れ親しんでいるひとは違和感を覚える点があるかもしれません。 以下のような点が特徴的だと思います。 辞書の読み込み tuskkは SKK辞書ファイルの読み込みを行いません 。 変換を呼び出したときにripgrepを利用して辞書を検索し、それをパースして候補リストに表示します。 入力中文字の表示 SKKといえば変換開始位置を▽で表示しているイメージですが、tuskk

                日本語入力Vimプラグインを作ったので自慢します
              • A New Japanese-English Parallel Corpus – 株式会社Laboro.AI

                エンジニアコラム 広い技術領域をカバーする当社の機械学習エンジニアが、 アカデミア発のAI&機械学習技術を 紹介&解説いたします。 − 新日英対訳コーパス − 2021.11.9 Laboro.AI Inc. Machine Learning Engineer Zhao Xinyi (※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自然な箇所も含みますことをご了承ください。) INTRODUCTION Parallel corpus is essential to Natural Language Processing (NLP) research, especially when it comes to tra

                  A New Japanese-English Parallel Corpus – 株式会社Laboro.AI
                • 【形態素解析】AWS ComprehendやGoogle Natural Language APIで「進撃の巨人」を固有名詞に判定できるか? - Qiita

                  【形態素解析】AWS ComprehendやGoogle Natural Language APIで「進撃の巨人」を固有名詞に判定できるか?AWS自然言語処理形態素解析ComprehendGoogleNaturalLanguageAPI 概要 やりたいこと この記事は、AWSとGoogleの自然言語処理サービスにおける、 固有名詞(新語)の判定能力を確かめた記録です。 具体的には、 私の好きなアニメはドラゴンボールと幽遊白書と進撃の巨人とハウルの動く城と千と千尋の神隠しです。好きなタレントは平野紫耀です。 といったような文章から、 ドラゴンボール 幽遊白書 進撃の巨人 ハウルの動く城 千と千尋の神隠し 平野紫耀 といった固有名詞を抽出できるか?を確認しました。 検証したサービスは、 AWS Comprehend Google Natural Language API (比較用)Mecab+

                    【形態素解析】AWS ComprehendやGoogle Natural Language APIで「進撃の巨人」を固有名詞に判定できるか? - Qiita
                  • Rによる自然言語処理(tidymodels, BPE, fasttext, XGBoost)【2021年1月】 - Qiita

                    この記事について 以前に書いた記事を焼き直ししつつ、ばんくしさんの以下のブログ記事のまねをRでやってみます。 Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator ばんくしさんの記事は「Pythonどこまで脱却できるのか見るのも兼ねて」ということで、Rustで自然言語処理を試しています。私はべつに自然言語処理を実務でやるエンジニアとかではないですが、PythonじゃなくてRustとかGoといった静的型付けで速い言語で安全に書けたらうれしい場面があるよね、みたいなモチベーションなのかなと想像しています。 実際のところ、自分でコードを書きながら自然言語処理の真似事をするなら依然としてPythonが便利です。Rと比べても、PythonにはSudachiPyやjanomeといった選択肢がある一方で、RにはRコンソールからのみで

                      Rによる自然言語処理(tidymodels, BPE, fasttext, XGBoost)【2021年1月】 - Qiita
                    • 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) - 株式会社CoLabMix

                      技術ブログ 2019.06.13 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) 今回は自然言語解析をfastTextを使って実施してみます。 fastTextはfacebookが公開している自然言語処理用のライブラリで、単語のベクトル化と文章分類を実施します。 ソースコードはこちらになります。 https://github.com/facebookresearch/fastText fastTextの利用方法は二つあり、「単語表現学習(Word representation learning)」と「文章分類(Text classification)」です。 単語表現学習(Word representation learning)では、単語をひたすら学習させて、似ている単語などを抽出します。 この単語に近いものや、

                        機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる(mecabを利用) - 株式会社CoLabMix
                      • mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita

                        記事の内容は古くなっていると思います。 最新の状態はGitHubで確認してください。 最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。 最近の記事 青空文庫の書籍をDoc2Vecでクラスタリング 文春オンラインの記事をスクレイピング&ネガポジ分析 その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。 今回は私が使っているDockerfileを公開いたします。 ベース:ubuntu 入っているもの:anaconda,mecab,NEologd,gensim,janome,BeautifulSoupなど 工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。 参考 かめさんのudemy Docker講座・・・私のDocke

                          mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita
                        • RでMeCab(RcppMeCab)を利用して形態素解析する方法

                          RcppMeCabとは RcppMeCabは、Junhewk Kim氏が開発している、MeCabとRcppを利用して形態素解析するためのRパッケージです。 junhewk/RcppMeCab CRAN - Package RcppMeCab RcppMeCabによる形態素解析の例 形態素解析するための関数として、RcppMeCab::posとRcppMeCab::posParallelの2つがあります。両者はまったく同じ機能を提供するものですが、posParallelのほうは形態素解析の処理を内部的にマルチスレッドで回すことができます。posParallelが対応しているOS・プラットフォームならば、基本的にposParallelを使っておくほうが速いです。 渡す引数によって、以下のような出力を得ることができます。 require(RcppMeCab) sentence <- c("陽が照

                            RでMeCab(RcppMeCab)を利用して形態素解析する方法
                          • mecab辞書を使うNLPモデルをCloud Runでseverlessでサクサクと動かす! - Qiita

                            問題 NLP (自然言語処理)のモデルを作ってもらったが、mecab-ipadic-neologdというmecabの拡張辞書がスーパー重い (3 GB以上?) しかし、サービスの特性上新しい用語を考慮した方が良いと判断し、mecab-ipadic-neologdは外せない 人手足りないので、できればクラウド上 (現時点ではGCP) でserverlessで運用したい アプローチ 先人の知恵を借りてmecabのweb APIをまずforkする。 (matsulibさん、ありがとうございました!!) Github Qiita記事 上のmecab-ipadic-neologd辞書APIをGCPのCloud Run (serverless container deploymentできちゃうもの。GCPで現在ベータ版。AWSでいうとFargate)にデプロイしておく。 PORT番号は必ず変更するよう

                              mecab辞書を使うNLPモデルをCloud Runでseverlessでサクサクと動かす! - Qiita
                            • 副業求人の横断検索サービスで利用した技術について - Crieit

                              はじめに こんにちは。かつおです。個人開発が趣味でがんばってます。 この記事では先日リリースしたWebサービス「副業サーチ」の利用技術やシステム構成を書いてみました。 * 開発者の想い的なNoteはこちら 副業サーチとは? 副業サーチのサービスのURLはこちら 色々なWebサイトに掲載されている副業求人、副業案件を収集し、まとめて検索できるWebサービスです。 いわゆる横断検索サイトで、副業特化の「Indeed」のようなサービスです。 副業サーチは以下の階層で構成されてます。 * トップページ * 副業の検索ページ * お役立ち記事一覧ページ * お役立ち記事詳細ページ システム構成・利用技術 副業求人検索 Webサイトをクローリングして副業案件データを収集。 PythonのScrapyを使ってスクレイピング 収集したデータをちょっと加工(タギング、データの正規化) 全文検索エンジン(El

                                副業求人の横断検索サービスで利用した技術について - Crieit
                              1