[B! nlp] yuisekiのブックマーク

yuiseki id:yuiseki

nlpに関するyuisekiのブックマーク (20)

GitHub - explosion/spaCy: 💫 Industrial-strength Natural Language Processing (NLP) in Python
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2022/03/14
tech

nlp
リンク
Universal Dependencies
Universal Dependencies Universal Dependencies (UD) is a framework for consistent annotation of grammar (parts of speech, morphological features, and syntactic dependencies) across different human languages. UD is an open community effort with over 600 contributors producing over 200 treebanks in over 150 languages. If you are new to UD, you should start by reading the first part of the Short Intro
yuiseki 2022/03/14
tech

nlp
リンク
spaCy/GiNZA online demonstration
spaCy/GiNZA online demonstration(unofficial) spaCy/GiNZA is an open source japanese NLP library, based on Universal Dependencies.
yuiseki 2022/03/14
tech

nlp
リンク
GitHub - megagonlabs/ginza: A Japanese NLP Library using spaCy as framework based on Universal Dependencies
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2021/10/27
tech

nlp
リンク
Atilika: ai + language | Atilika
Not found
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
GitHub - google/budou: Budou is an automatic organizer tool for beautiful line breaking in CJK (Chinese, Japanese, and Korean).
Budou is in maintenance mode. The development team is focusing on developing its successor, BudouX English text has many clues, like spacing and hyphenation, that enable beautiful and legible line breaks. Some CJK languages lack these clues, and so are notoriously more difficult to process. Without a more careful approach, breaks can occur randomly and usually in the middle of a word. This is a lo
yuiseki 2016/09/09
tech

nlp

自然言語処理
リンク
さだまさしを kuromoji を用いて簡単に品詞分解してみる - Qiita
さだまさし名詞-固有名詞-人名-一般さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に（サダゴスティーニとかは節度のある大人なので言わない）書いていければと思います。ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。道具の用意解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji kuromoji KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。 Java で形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
mecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる - CLOVER🍀
注意）このエントリでは、mecab-ipadic-neologdをLucene Kuromojiに適用するにあたり、2つほど問題が発生したのですが、作者の@overlastさんにそのうちのひとつを対応いただきました。修正版mecab-ipadic-neologdを使ってLucene Kuromojiに適用するエントリは、以下を見るようにしてください。修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 こちらのエントリは、備忘録的に残っているだけです。以降は、それを踏まえた上で読まれますよう。とりあえずLucene Kuromojiに適用したい場合は、上記のエントリをご覧ください。先日、ちょっと気になるエントリが世の中に出ていま
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
Lucene Kuromojiに対して、mecab-ipadic-neologdの辞書を適用してビルドするbashスクリプトを書きました - CLOVER🍀
ここ2〜3日、ず〜っとmecab-ipadic-neologdの辞書をLucene Kuromojiに適用するという作業を延々と繰り替えしていました。修正されたmecab-ipadic-neologdの辞書を、Lucene Kuromojiに適用してみる http://d.hatena.ne.jp/Kazuhira/20150316/1426520209 が、けっこうな数の手順を踏むので、だんだん面倒になってきました…。そこで、上記のエントリでやった手順をまとめたbashスクリプトを書きました。ビルド方法もだいたい決まったことですし。 ※完全に同じではありませんエラートラップとかは大して入れていませんが、ご了承ください。実行する前提条件として、以下がインストールされている必要があります。 MeCabをビルドできるソフトウェア（C++コンパイラ、iconv、xz） Git wget
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
Java で Lucene Kuromoji + mecab-ipadic-neologd を使用した形態素解析 - Qiita
dependencies { compile("org.codelibs:lucene-analyzers-kuromoji-ipadic-neologd:5.4.1-20160218") } repositories { mavenCentral() maven { url "http://maven.codelibs.org" } } import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
CodeLibs Lucene Kuromoji＋mecab-ipadic-NEologdを使う - CLOVER🍀
Lucene Kuromoji＋mecab-ipadic-NEologdのエントリを見かけるようになりましたが、個人的にちょっと気になるところがありまして。 Maven依存関係にこれを足せば使えるよ、というエントリを見かけますが <dependency> <groupId>org.codelibs</groupId> <artifactId>elasticsearch-analysis-kuromoji-neologd</artifactId> <version>2.1.1</version> </dependency> GitHub - codelibs/elasticsearch-analysis-kuromoji-neologd: Elasticsearch's Analyzer for Kuromoji with Neologd いや、それElasticsearchまで入ってるじゃ
yuiseki 2016/09/09
tech

nlp

自然言語処理

kuromoji
リンク
TinySegmenterの学習ツールを作ってみた
TinySegmenterは工藤さん作のJavaScriptだけで書かれたコンパクトな分かち書きソフトウェアです．わずか20kバイト程度のサイズしかなく，お手軽に使える分かち書きソフトウェアですが，当たり前のことながら学習データに使った新聞記事以外の文章の精度はイマイチ．改善しようにも学習用のプログラムが公開されていないのでモデルの修正が大変です．ないなら作ってしまいましょう！ダウンロードソースはgithubで公開しています．cloneするなりzipファイルを落としてくるなりしてください． TinySegmenterMaker 学習方法スペースで分かち書きしたコーパスをあらかじめ準備しておきます．コーパスから分かち書きの情報と素性を取り出します．
yuiseki 2016/09/08
tech

nlp

自然言語処理

tinysegmenter
リンク
GitHub - shogo82148/TinySegmenterMaker
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
yuiseki 2016/09/08
tech

nlp

自然言語処理

tinysegmenter
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
yuiseki 2014/03/11
word2vec

tech

自然言語処理

nlp
リンク
GeoLOD - 地名情報を集約する地名情報処理基盤
GeoLODは地名に関する固有識別子（GeoLOD ID）を付与し、複数の情報源で共有することで、地名情報を統合処理するためのプラットフォームです。
yuiseki 2014/01/12
tech

自然言語処理

位置情報

lod

geo

nlp
リンク
GeoLOD地名識別子／GeoNLP - 地名識別子の構築と活用 | 地球環境データ統合・解析プラットフォーム事業（DIAS）
GeoLOD地名識別子／GeoNLP - 地名識別子の構築と活用 GeoNLP プロジェクトは、データ／ソフトウェア／サービスから構成されており、地名テキストの検索、解析、可視化をウェブサービスとして提供します。このうちソフトウェアを担当するGeoNLPは、2021年7月にバージョン2.0をリリースし、現代のニーズに合わせて大きく更新しました。またデータを担当するGeoLODも、新しいGeoNLPに合わせて更新しています。 GeoNLPや関連サービスのデモについては、以下をお試しください。テキストジオタギング（GeoNLP）デモ住所ジオコーディング（jagecoder）デモなお、任意のウェブページを地図化するChromeアプリGeoNLP Annotatorについては、GeoNLPの大規模なリニューアルに伴ってサポートを終了しています。
yuiseki 2014/01/12
tech

位置情報

自然言語処理

geo

nlp
リンク
GeoNLP - テキストを自動的に地図化する地名情報処理ソフトウェア
デモテキストジオタギング（GeoNLP）デモ住所ジオコーディング（jagecoder）デモ概要 GeoNLP プロジェクトは、オープンな地名情報処理のためのソフトウェア、データ、サービスを研究開発するプロジェクトです。本サイトはGeoNLPソフトウェアを中心に情報を提供します。 GeoNLPソフトウェアは、2021年7月にリリースしたVersion 2.0で大幅な変更を行い、PythonモジュールのPyGeonLPおよびPyGeoNLP WebAPIに生まれ変わりました。2022年2月にはVersion 2.1をリリースし、機械学習などの手法を導入しやすくなるよう、内部構造を大きく変更しました。なお最新情報は以下をご覧下さい。 GeoNLPニュース GeoNLPソフトウェア変更履歴インストール GeoNLPドキュメントの中のPyGeoNLP リファレンスをご覧下さい。またGitHu
yuiseki 2013/09/19
おーべんりそう

tech

位置情報

自然言語処理

geo

nlp
リンク
驚異的な解析速度を誇る日本語係り受け解析器J.DepP - 自然言語処理 on Mac
日本語の係り受け解析器といえば、KNPやCaboChaが有名ですが、J.DepPは線形分類器を用いて大規模な対象を非常に高速に、また高精度に解析できることが特長です。2009年末に公開されてから着実にバージョンアップされていますが、ビルドの方法が簡単になって、モデルの学習機能が追加されたことで大変使いやすくなっています。また、J.DepPは線形分類器のpeccoやopalを利用していますが、ベースの分類器が高速化されたことが、そのまま解析器の性能向上につながっているようです：ソフトウェアの更新も一人旅になってきた - ny23の日記このJ.DepPをMacPortsとして登録しました。デフォルトの状態でjdeppをインストールすると、jumandicを参照するMeCabを組み込んだ解析器と、解析済みのブログコーパスであるKNBコーパスを対象とした学習モデルが利用できるようになります：
yuiseki 2012/09/22
数学

自然言語処理

形態素解析

jdepp

係り受け解析

J.DepP

nlp
リンク
JVN#16901583: 茶筌 (ChaSen) におけるバッファオーバーフローの脆弱性
奈良先端科学技術大学院大学の提供する茶筌 (ChaSen) には、バッファオーバーフローの脆弱性が存在します。茶筌 (ChaSen) version 2.4.4 およびそれ以前茶筌 (ChaSen) version 2.3.3 およびそれ以前上記バージョンの茶筌 (ChaSen) を組み込んでいるソフトウェアが本脆弱性の影響を受けます。奈良先端科学技術大学院大学の提供する茶筌 (ChaSen) は、日本語の形態素解析をするためのソフトウェアです。茶筌 (ChaSen) には、文字列の読み込みに問題があり、バッファオーバーフローの脆弱性が存在します。なお、茶筌 (ChaSen) は一時的に開発が停止していましたが、2011年12月8日より、ChaSen legacy プロジェクトによって開発が再開されました。
yuiseki 2011/11/08
うひー

自然言語処理

nlp

形態素解析

脆弱性

ChaSen
リンク
kuromoji - japanese morphological analyzer
About Kuromoji Kuromoji is an open source Japanese morphological analyzer written in Java. Kuromoji has been donated to the Apache Software Foundation and provides the Japanese language support in Apache Lucene and Apache Solr 3.6 and 4.0 releases, but it can also be used separately. Downloading Download Apache Lucene or Apache Solr if you want to use Kuromoji with Lucene or Solr. See below for so
yuiseki 2011/05/31
リンク
1