embulk-filter-kuromojiという日本語解析するプラグインを作りました。 kuromojiを使えば漢字を読みがなに変換したり形態素解析したりすることが出来ます。 今回はサンプルに従って幾つか代表的なユースケースを書きます。 使い方 今回のサンプルデータ title
![Embulkで日本語をお手軽に形態素解析 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/5422e407cc7e88b071d1aa9f850928f343b4df1c/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Fadvent-calendar-ogp-background-f625e957b80c4bd8dd47b724be996090.jpg%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9RW1idWxrJUUzJTgxJUE3JUU2JTk3JUE1JUU2JTlDJUFDJUU4JUFBJTlFJUUzJTgyJTkyJUUzJTgxJThBJUU2JTg5JThCJUU4JUJCJUJEJUUzJTgxJUFCJUU1JUJEJUEyJUU2JTg1JThCJUU3JUI0JUEwJUU4JUE3JUEzJUU2JTlFJTkwJnR4dC1jb2xvcj0lMjMzQTNDM0MmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkNtaWRkbGUmcz0zMzNiNjdhMzE3YjUyMzRiYWI0Mjc1ODI2Mzg1MjZmZA%26mark-x%3D142%26mark-y%3D151%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwdG95YW1hMDkxOSZ0eHQtY29sb3I9JTIzM0EzQzNDJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NzJhYzYwZjcyYjM2Zjg5MDQwZTU2ZTJkOTk2MDI1ZDA%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Dd482e51f373525ab7265b48ba871a099)
監視周りの情報とかをペタペタと書きました。 ステータス監視 Munin https://github.com/claygregory/munin-elasticsearch 色々あるけど、これが有力そう。 Plugin/HQ https://github.com/royrusso/elasticsearch-HQ headプラグインと機能が被っている気がしなくもない。便利な管理ツール。 Plugin/head http://mobz.github.io/elasticsearch-head/ 色々できるノードステータス監視ツール。便利 Plugin/bigdesk https://github.com/lukas-vlcek/bigdesk HQやheadと似たようなElasticSearchクラスタの状態監視ツール。 HQやheadと比べてモニタリングの機能のみに注力しているイメージ。
はじめに 4/21(月)に開催された第4回elasticsearch勉強会に参加してきました。場所はグラントウキョウサウスタワー。会場提供はリクルートテクノロジーズ様でした。一参加者としてお礼申し上げます、ありがとうございます! なお、参加者にはElasticsearchのステッカーがもらえました(足りなかった人にはLogstashのステッカーだったとか。でもあのロゴも好きです僕) tweetまとめはこちら。 第4回elasticsearch勉強会 #elasticsearchjp - Togetterまとめ レポート ※後日各発表のスライドが公開されましたら順次追加致します。 「アナライズ処理の仕組みとクエリDSL」 by 株式会社シーマーク 大谷純さん(@johtani) スライド(PDF) ・転置インデックスとは ・文章を要素に区切り、その素からドキュメントIDを引けるようにすること
技術推進室の浅井です。Elasticsearchで日本語全文検索をちゃんとやるための説明、日本語でちゃんと書かれているものが無くて少々困ったので、ちゃんと書いてみます。 Elasticsearchのインストール※ 2013/12/17 13:30 インストールするJDKのバージョンを7u45から7u25に変更 ※ 2013/12/17 12:50 JDKのバージョンについての説明を追記 @johtani さん指摘ありがとうございます この記事内の説明でOracle JDK 7u45をインストールしていましたが、Apache Luceneが7u45を推奨していないため、7u25をインストールしたほうが良いようです。(後ほど記事内の説明も修正します 修正しました) http://lucene.472066.n3.nabble.com/What-is-recommended-version-of
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く