Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
sudo yum install php-common php-devel php-cli php-pear sudo yum install pcre-devel sudo yum install php-mbstring git clone https://github.com/miraoto/php.mod-mecab-dic.git cd php.mod-mecab-dic mkdir mkdir mod-mecab-dic/tmp cd mod-mecab-dic/tmp wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz php ./mod-mecab-dic/bootstrap.php wikipedia cd mod-mecab-dic/tmp mv mecab-d
FESS で収集した情報を Ruby で取り出す 機械学習関連情報の収集と分類(構想)の FESS / Elasticsearch 関連部分の詳細です。 実際に調べた時点から半年ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 (1) 記事のスキーマ FESS はクロールした記事の管理に Elasticsearch を使っています。そのスキーマ構造はドキュメントを探しても見つかりませんでした。 が…、FESS の管理画面( http://localhost:8090/admin/dashboard/ 1 ) で、more -> analysis を選択すると ANALYZE BY FIELD TYPE というプルダウンが現れるので、index name / type /field name をプルダウンしてスキーマ構造を確認することができるようです。 結果、/fess/do
序文 どうも、再びの新人です。 前回の続きです。 前回mecabだけを使っていたらうまくいかなくて、そのまま世にお披露目をしたところ各方面(qiitaやtwitterやほぼ全方面)から「IPA辞書だけで日本語いけると思うな、NEologdを使え」とのまさかりが飛んできたのでありがたく 顔面 正面から受け止めてみました。 また、ElasticsearchのPluginで日本語解析ができる elasticsearch-analysis-kuromoji も使ってみました。 構想した時点での所感(口語調) NEologdは現代語に対応しているらしいけど、今流行りだしたばかりの新語が横行するTwitterでどこまで通用するだろうか。 kuromojiは日本語分割はできるらしいけど、どこまで現代語的なのだろうか。リプやハッシュタグを取り除く方法はよく分からないな。 環境 前回をご参照ください。 作業
本家 https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd が5.x系のみの更新サポートになってしまったので 2.xユーザーが自前で更新する方法 環境はCentOS 7.2 git clone -b 2.4.x https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd.git でソースを取得し、 pom.xml の 5.5.2-20161110 を http://maven.codelibs.org/org/codelibs/lucene-analyzers-kuromoji-ipadic-neologd/ の luceneのバージョン 5.5.2 の最新の日付のパスに変更する。 *例:5.5.2-20161229 3/10追記:デ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kuromojiについて Kuromojiを使用するにあたっての雑記。ただのメモ。 はじめに Kuromojiは日本語形態素解析エンジンであるが、そもそも形態素解析とは何?ってとこから。 形態素解析とは 文を単語に区切り品詞を定める処理 以下の3つの処理を行っている 単語の分割 活用語処理(読みやすい形、意味のある形に変換すること) 品詞を定める といった順番で行っている。 形態素解析の技術 基本的な仕組み 単語辞書 形態素ラティス 最小コスト法 単語辞書 形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというの
経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。 ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。 使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZIPフ
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-email: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
本記事はSlack Advent Calendar 2017の1日目の記事です。 概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化 無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索 本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
はじめに Elasticsearch には日本語を形態素解析してくれる 公式プラグイン が存在します。 長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。 たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。 検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。 私ならこうします。 検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
形態素解析に用いられるJUMANですが、扱える言語がPerlやPythonです。Rubyで扱っている記事も見つけますが、PHPで書かれたものはなかったので、メモしておきます。 (2015/9/4: @mpywさんからを受けたので追記をしました) proc_open を使った方法 <?php function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は、子プロセスが書き込むパイプです。 ); $process = proc_open('juman', $descriptorspec, $pipes); if (is_resource($process)) { // $pipes
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。 この記事では、まずELSのテンプレートで登録するところまでをやります。 プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。 その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
$ juman 国立図書館 国立 こくりつ 国立 名詞 6 普通名詞 1 * 0 * 0 "代表表記:国立/こくりつ カテゴリ:抽象物 ドメイン:教育・学習;政治" @ 国立 くにたち 国立 名詞 6 地名 4 * 0 * 0 "代表表記:国立/くにたち 地名:日本:東京都:市" 図書 としょ 図書 名詞 6 普通名詞 1 * 0 * 0 "代表表記:図書/としょ カテゴリ:抽象物 ドメイン:文化・芸術" 館 かん 館 名詞 6 普通名詞 1 * 0 * 0 "代表表記:館/かん 漢字読み:音 カテゴリ:場所-施設" function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS + Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。 第5章: 係り受け解析 夏目漱石の小説『吾輩は猫である』の文章(neko.txt)をCaboChaを使って係り受け解析し,その結果をneko.txt.cabochaというファイルに保存せよ.このファイルを用いて,以下の問に対応するプログラムを実装せよ. 48. 名詞から根へのパスの抽出 文中のすべての名詞を含む文節に対し,その文節から構文木の根に至るパスを抽出せよ. ただし,構文木上のパスは以下の仕様を満たすものとする. 各文節は(表層形の)形態素列で表現する パスの開始文節から終了文節に至るまで,各文節の表現を"->"で連結する 「吾輩はここで始めて人間というものを見た」とい
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く