「neologd辞書」を検索 - はてなブックマーク

1 - 14 件 / 14件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

neologd辞書の検索結果1 - 14 件 / 14件

mozc-utの公開の終了といろいろについての所感
- 106 users
- zenn.dev/centra
- テクノロジー
- 2023/01/12
どういうことだってばよ Linux 上の日本語入力システムで一番メジャーといえる mozc（Google 日本語入力のオープンソース版）向けの辞書として公開されていた、mozc-ut の公開を作者が終了してしまいました。それに伴ってディストリビューションにパッケージの公開をしている人に削除が求められています。自分の知る限りでは AUR でしかパッケージングされていないので、その部分の影響は少なそうですが、かなりメジャーな mozc の辞書として知られていたので、影響が大きそうだと思いまとめることにしました。（私事で恐縮ですが、mozc-ut を利用していたのでまあまあなショックがあります）発端山田ハヤオさんの 2 つのツイートが作者のサイトで原因としてあげられています。作者は 1 つめのツイートについて山田ハヤオさんが「UT 辞書はライセンスに問題があってまともではない」と書いてい
- oss
- IME
- mozc
- ライセンス
- license
- Linux
- 開発
Mozc UT Dictionaries
- 62 users
- linuxplayers.g1.xrea.com
- テクノロジー
- 2021/08/17
Overview Mozc UT dictionaries are additional dictionaries for Mozc. Press the Star button on GitHub They need more Stars. mozc: 1930 Stars fcitx5: 1129 Stars fcitx5-mozc: 82 Stars merge-ut-dictionaries: 40 Stars Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs License mo
- Mozc
- linux
- oss
- IME
- ライブラリ
- Ubuntu
- 言葉
Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator
- 12 users
- vaaaaaanquish.hatenablog.com
- テクノロジー
- 2020/12/14
- はじめに - RustでNLP、機械学習どこまでできるのか試した時のメモ。 Pythonどこまで脱却できるのか見るのも兼ねて。コードは以下に全部置いてある。 GitHub - vaaaaanquish/rust-text-analysis: rust-text-analysis - はじめに - - 形態素解析 - neologd lindera - Text Processing、Embedding - - XGBoost - - 実験 - - おわりに - - 形態素解析 - Rustの形態素解析実装を調べると、lindera-morphology/lindera を使うのが有力候補となりそうである。sorami/sudachi.rs や agatan/yoin 、 nakagami/awabi のような実装もあるがメンテは止まっている様子である。 linderaメンテナのブログ
- 自然言語処理
- あとで読む
2021年初頭に SKK を Windows/Mac で Google 日本語入力からの候補取得といっしょに絵文字まで変換して使うための方法 - あじーん-0.0.2-SNAPSHOT
- 5 users
- nishikawasasaki.hatenablog.com
- テクノロジー
- 2021/10/15
前提・したいこといろいろしたいこと盛り沢山。動作させる環境としては Windows10 の WSL2 で動作させたい WSL2 と VcXsrv で動かしている Emacs の ddskk からも (できるだけ) 利用したいでも Mac でもできるだけ同じように環境を用意したいそして動作自体には辞書に無い未知語は候補を Google 日本語入力 (Google Japanese Input) の API から取得したい辞書に有る語の場合は辞書から候補を取得して可能な限り高速に変換したい絵文字も入力したいとぜいたくな感じ。2021 年、令和三年ですからね。作業内容・手順 SKK のインストール Windows10 では動作も軽快で安定感抜群な CorvusSKK を利用させていただいてます。 github.com リリースから最新のインストーラーをダウンロードしてきてインス
- skk
DockerでPython公式イメージ + MeCab + NEologd辞書 - Qiita
- 4 users
- qiita.com/Takayoshi_Makabe
- テクノロジー
- 2021/12/03
MeCabについて mecab-ipadic-neologd 形態素解析がなんぞや？MeCabとはなんぞや？という疑問に関しては他の方のブログでも詳しく解説されていると思いますので、ここでは省きます。 MeCabの辞書ですが、デフォルトのもの以外では、おそらく多くの人が使っているものとしてmecab-ipadic-neologdが挙げられるかと思います。LINE株式会社さんが開発しているOSSで新語・固有表現に強いMeCabの辞書で、今尚頻繁に更新されています。ちなみに2021年の新語・流行語大賞に輝いたリアル二刀流もNEologdにかかればこんな感じ $ mecab -d {デフォルト辞書のパス} リアル二刀流リアル名詞,固有名詞,一般,*,*,*,リアル,リアル,リアル二刀流名詞,一般,*,*,*,*,二刀流,ニトウリュウ,ニトーリュー $ mecab -d {mecab-ip
- docker
- python
- qiita
日本語入力Vimプラグインを作ったので自慢します
- 4 users
- zenn.dev/kawarimidoll
- テクノロジー
- 2023/12/31
また、Shiftキーを押しながらのキー入力が負担になることの対策として、stickyという仕組みも用意されています。このキーを押すと、次のキーがShiftされた扱いになります。以下は;をstickyとした例です。コンセプト上でSKKライクと書いていますが、tuskkはあくまで日本語入力補助プラグインを指向しており、SKK実装を作ることを目的としていません。他のSKK実装でできることを諦めている部分があるため、既存のSKKに慣れ親しんでいるひとは違和感を覚える点があるかもしれません。以下のような点が特徴的だと思います。辞書の読み込み tuskkは SKK辞書ファイルの読み込みを行いません。変換を呼び出したときにripgrepを利用して辞書を検索し、それをパースして候補リストに表示します。入力中文字の表示 SKKといえば変換開始位置を▽で表示しているイメージですが、tuskk
- あとで読む
A New Japanese-English Parallel Corpus – 株式会社Laboro.AI
- 3 users
- laboro.ai
- テクノロジー
- 2021/11/14
エンジニアコラム広い技術領域をカバーする当社の機械学習エンジニアが、アカデミア発のAI＆機械学習技術を紹介＆解説いたします。 − 新日英対訳コーパス − 2021.11.9 Laboro.AI Inc.　Machine Learning Engineer　Zhao Xinyi （※このコラムでは、当社が開発した機械翻訳モデルによる日本語訳を各セクションに掲載しています。翻訳文は、その性能を実感いただくことを目的に、いくつかの用語を置き換える以外は人手による修正は行なっておりません。そのため、一部文章に不自然な箇所も含みますことをご了承ください。） INTRODUCTION Parallel corpus is essential to Natural Language Processing (NLP) research, especially when it comes to tra
【形態素解析】AWS ComprehendやGoogle Natural Language APIで「進撃の巨人」を固有名詞に判定できるか？ - Qiita
- 3 users
- qiita.com/shibahead
- テクノロジー
- 2022/12/26
【形態素解析】AWS ComprehendやGoogle Natural Language APIで「進撃の巨人」を固有名詞に判定できるか？AWS自然言語処理形態素解析ComprehendGoogleNaturalLanguageAPI 概要やりたいことこの記事は、AWSとGoogleの自然言語処理サービスにおける、固有名詞（新語）の判定能力を確かめた記録です。具体的には、私の好きなアニメはドラゴンボールと幽遊白書と進撃の巨人とハウルの動く城と千と千尋の神隠しです。好きなタレントは平野紫耀です。といったような文章から、ドラゴンボール幽遊白書進撃の巨人ハウルの動く城千と千尋の神隠し平野紫耀といった固有名詞を抽出できるか？を確認しました。検証したサービスは、 AWS Comprehend Google Natural Language API （比較用）Mecab+
Rによる自然言語処理（tidymodels, BPE, fasttext, XGBoost）【2021年1月】 - Qiita
- 3 users
- qiita.com
- テクノロジー
- 2021/01/04
この記事について以前に書いた記事を焼き直ししつつ、ばんくしさんの以下のブログ記事のまねをRでやってみます。 Rustによるlindera、neologd、fasttext、XGBoostを用いたテキスト分類 - Stimulator ばんくしさんの記事は「Pythonどこまで脱却できるのか見るのも兼ねて」ということで、Rustで自然言語処理を試しています。私はべつに自然言語処理を実務でやるエンジニアとかではないですが、PythonじゃなくてRustとかGoといった静的型付けで速い言語で安全に書けたらうれしい場面があるよね、みたいなモチベーションなのかなと想像しています。実際のところ、自分でコードを書きながら自然言語処理の真似事をするなら依然としてPythonが便利です。Rと比べても、PythonにはSudachiPyやjanomeといった選択肢がある一方で、RにはRコンソールからのみで
- R
機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる（mecabを利用） - 株式会社CoLabMix
- 3 users
- colabmix.co.jp
- テクノロジー
- 2020/02/12
技術ブログ 2019.06.13 機械学習のfastTextをCentOS7環境のPython3を使って20万件の文章分類を実施してみる（mecabを利用）今回は自然言語解析をfastTextを使って実施してみます。 fastTextはfacebookが公開している自然言語処理用のライブラリで、単語のベクトル化と文章分類を実施します。ソースコードはこちらになります。 https://github.com/facebookresearch/fastText fastTextの利用方法は二つあり、「単語表現学習（Word representation learning）」と「文章分類（Text classification）」です。単語表現学習（Word representation learning）では、単語をひたすら学習させて、似ている単語などを抽出します。この単語に近いものや、
mecab(NEologd辞書)環境をDocker(ubuntu)で構築 - Qiita
- 3 users
- qiita.com/kei0919
- テクノロジー
- 2020/11/04
記事の内容は古くなっていると思います。最新の状態はGitHubで確認してください。最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。最近の記事青空文庫の書籍をDoc2Vecでクラスタリング文春オンラインの記事をスクレイピング&ネガポジ分析その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。今回は私が使っているDockerfileを公開いたします。ベース：ubuntu 入っているもの:anaconda,mecab,NEologd,gensim,janome,BeautifulSoupなど工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。参考かめさんのudemy Docker講座・・・私のDocke
RでMeCab（RcppMeCab）を利用して形態素解析する方法
- 3 users
- zenn.dev/paithiov909
- テクノロジー
- 2021/07/02
RcppMeCabとは RcppMeCabは、Junhewk Kim氏が開発している、MeCabとRcppを利用して形態素解析するためのRパッケージです。 junhewk/RcppMeCab CRAN - Package RcppMeCab RcppMeCabによる形態素解析の例形態素解析するための関数として、RcppMeCab::posとRcppMeCab::posParallelの２つがあります。両者はまったく同じ機能を提供するものですが、posParallelのほうは形態素解析の処理を内部的にマルチスレッドで回すことができます。posParallelが対応しているOS・プラットフォームならば、基本的にposParallelを使っておくほうが速いです。渡す引数によって、以下のような出力を得ることができます。 require(RcppMeCab) sentence <- c("陽が照
mecab辞書を使うNLPモデルをCloud Runでseverlessでサクサクと動かす！ - Qiita
- 3 users
- qiita.com/y26805
- テクノロジー
- 2020/03/12
問題 NLP (自然言語処理)のモデルを作ってもらったが、mecab-ipadic-neologdというmecabの拡張辞書がスーパー重い (3 GB以上?) しかし、サービスの特性上新しい用語を考慮した方が良いと判断し、mecab-ipadic-neologdは外せない人手足りないので、できればクラウド上 (現時点ではGCP) でserverlessで運用したいアプローチ先人の知恵を借りてmecabのweb APIをまずforkする。 (matsulibさん、ありがとうございました！！) Github Qiita記事上のmecab-ipadic-neologd辞書APIをGCPのCloud Run (serverless container deploymentできちゃうもの。GCPで現在ベータ版。AWSでいうとFargate)にデプロイしておく。 PORT番号は必ず変更するよう
- あとで読む
副業求人の横断検索サービスで利用した技術について - Crieit
- 3 users
- crieit.net
- テクノロジー
- 2020/05/09
はじめにこんにちは。かつおです。個人開発が趣味でがんばってます。この記事では先日リリースしたWebサービス「副業サーチ」の利用技術やシステム構成を書いてみました。 * 開発者の想い的なNoteはこちら副業サーチとは？副業サーチのサービスのURLはこちら色々なWebサイトに掲載されている副業求人、副業案件を収集し、まとめて検索できるWebサービスです。いわゆる横断検索サイトで、副業特化の「Indeed」のようなサービスです。副業サーチは以下の階層で構成されてます。 * トップページ * 副業の検索ページ * お役立ち記事一覧ページ * お役立ち記事詳細ページシステム構成・利用技術副業求人検索 Webサイトをクローリングして副業案件データを収集。 PythonのScrapyを使ってスクレイピング収集したデータをちょっと加工（タギング、データの正規化）全文検索エンジン（El
- python