Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
技術書典 5、楽しみですね。 どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。 とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。 技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。 チェックするサークルさんの数を雑に数えてみたら って言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。 なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。 できたもの Node.js でこんな感じの CLI を作ってみました。 あいまい検索で関連していそうなサークルさ
FESS で収集した情報を Ruby で取り出す 機械学習関連情報の収集と分類(構想)の FESS / Elasticsearch 関連部分の詳細です。 実際に調べた時点から半年ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 (1) 記事のスキーマ FESS はクロールした記事の管理に Elasticsearch を使っています。そのスキーマ構造はドキュメントを探しても見つかりませんでした。 が…、FESS の管理画面( http://localhost:8090/admin/dashboard/ 1 ) で、more -> analysis を選択すると ANALYZE BY FIELD TYPE というプルダウンが現れるので、index name / type /field name をプルダウンしてスキーマ構造を確認することができるようです。 結果、/fess/do
序文 どうも、再びの新人です。 前回の続きです。 前回mecabだけを使っていたらうまくいかなくて、そのまま世にお披露目をしたところ各方面(qiitaやtwitterやほぼ全方面)から「IPA辞書だけで日本語いけると思うな、NEologdを使え」とのまさかりが飛んできたのでありがたく 顔面 正面から受け止めてみました。 また、ElasticsearchのPluginで日本語解析ができる elasticsearch-analysis-kuromoji も使ってみました。 構想した時点での所感(口語調) NEologdは現代語に対応しているらしいけど、今流行りだしたばかりの新語が横行するTwitterでどこまで通用するだろうか。 kuromojiは日本語分割はできるらしいけど、どこまで現代語的なのだろうか。リプやハッシュタグを取り除く方法はよく分からないな。 環境 前回をご参照ください。 作業
本家 https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd が5.x系のみの更新サポートになってしまったので 2.xユーザーが自前で更新する方法 環境はCentOS 7.2 git clone -b 2.4.x https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd.git でソースを取得し、 pom.xml の 5.5.2-20161110 を http://maven.codelibs.org/org/codelibs/lucene-analyzers-kuromoji-ipadic-neologd/ の luceneのバージョン 5.5.2 の最新の日付のパスに変更する。 *例:5.5.2-20161229 3/10追記:デ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kuromojiについて Kuromojiを使用するにあたっての雑記。ただのメモ。 はじめに Kuromojiは日本語形態素解析エンジンであるが、そもそも形態素解析とは何?ってとこから。 形態素解析とは 文を単語に区切り品詞を定める処理 以下の3つの処理を行っている 単語の分割 活用語処理(読みやすい形、意味のある形に変換すること) 品詞を定める といった順番で行っている。 形態素解析の技術 基本的な仕組み 単語辞書 形態素ラティス 最小コスト法 単語辞書 形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというの
経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。 ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。 使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZIPフ
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-email: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
本記事はSlack Advent Calendar 2017の1日目の記事です。 概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化 無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索 本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
はじめに Elasticsearch には日本語を形態素解析してくれる 公式プラグイン が存在します。 長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。 たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。 検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。 私ならこうします。 検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。 この記事では、まずELSのテンプレートで登録するところまでをやります。 プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。 その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
{ "body_txt": "jsoupというとスクレイピングがよくに出てきますが、こういう使い方もありますよ、という事で。ログイン->cookie保持->ログイン後処理というjsoupコードが日本語であんまりなかったので、せっかくの機会ですし纏めてみました。jsoupで一番苦労するのは、実際に処理が実行されるURLがどういうものなのか、を見つける事ですね。formで指定されていたり、リダイレクトされたり…メモ帳でtsvを触ると、なぜか先頭に?が入ってしまう、という謎の現象が起きたので、IPアドレスの取得方法には正規表現を使用しています。エディタの指定とかできないんで…つい昔の習慣で、beanを作って詰めてしまいますが、最近はこうじゃないんですかね…新しい方法も勉強しないと^^;", "execDate": "2018/01/16T10:40:00+09:00", "paragraph":
ブラウザから管理画面起動 Core selector で mycore 選択 左のメニューから「analysis」選択 「Fieldname / Field type」で「text_ja」を選択 Filed Value(Query)に質問文を入力し、「Analysis Values」ボタンをクリック (一番上の「JT」(JapaneseTokenizer)の結果) (一番下の「LCF」(LowerCaseFilter)の結果) 補足 デフォルトで自動生成される構成ファイル(solr-7.2.1/server/solr/mycore/conf/managed-schema)の「text_ja」部分 <fieldType name="text_ja" class="solr.TextField" autoGeneratePhraseQueries="false" positionIncreme
TypeError: Cannot read property 'length' of undefined at ViterbiBuilder.build (~\node_modules\kuromoji\src\viterbi\ViterbiBuilder.js:53:48) at Tokenizer.getLattice (~\node_modules\kuromoji\src\Tokenizer.js:126:33) at Tokenizer.tokenizeForSentence (~\node_modules\kuromoji\src\Tokenizer.js:81:24) at ~\node_modules\kuromo jin\lib\kuromojin.js:60:26 at <anonymous> catchしてスキップすればいいだけなので困ってはいないが、原因調査。 結
さだまさし 名詞-固有名詞-人名-一般 さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。 個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に(サダゴスティーニとかは節度のある大人なので言わない)書いていければと思います。 ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。 道具の用意 解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji kuromoji KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。 Java で形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く