[B! qiita][machine-learning][kuromoji] nabinnoのブックマーク

nabinno id:nabinno

qiitaとmachine-learningとkuromojiに関するnabinnoのブックマーク (33)

「この先生きのこる」を4つの自然言語処理エンジンに食わせてみる - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/10/12
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
楽して技術書典 5 のサークルさんを探したい - Qiita
技術書典 5、楽しみですね。どんなサークルさんに出会えるのか、もう楽しみで夜も 8 時間くらいしか眠れないです。とっても楽しみなのですが当日会場で迷わないためにも事前チェックは欠かせません。技術書典 5 のサイトにはサークルチェックリストという便利機能があるのでこれを利用するわけですね。チェックするサークルさんの数を雑に数えてみたらって言われました。すごい。 (2018/10/02 現在) もちろん時間があれば全部 1 つずつ見ていくわけですが、もう少し何とかならないかと devtools で眺めているとサークルさんのデータは API で一覧を取得することができるようになっていました。なので一覧データに入っているもので単語検索してみた、というのがこの記事の趣旨です。できたもの Node.js でこんな感じの CLI を作ってみました。あいまい検索で関連していそうなサークルさ
nabinno 2018/10/02
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
FESS で収集した情報を Ruby で取り出す - Qiita
FESS で収集した情報を Ruby で取り出す機械学習関連情報の収集と分類(構想)の FESS / Elasticsearch 関連部分の詳細です。実際に調べた時点から半年ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 (1) 記事のスキーマ FESS はクロールした記事の管理に Elasticsearch を使っています。そのスキーマ構造はドキュメントを探しても見つかりませんでした。が…、FESS の管理画面( http://localhost:8090/admin/dashboard/ 1 ) で、more -> analysis を選択すると ANALYZE BY FIELD TYPE というプルダウンが現れるので、index name / type /field name をプルダウンしてスキーマ構造を確認することができるようです。結果、/fess/do
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Crowiで検索を有効化する(CentOS 6.8) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
自分で逃げ恥を分析しませんか？ - Qiita
序文どうも、再びの新人です。前回の続きです。前回mecabだけを使っていたらうまくいかなくて、そのまま世にお披露目をしたところ各方面（qiitaやtwitterやほぼ全方面）から「IPA辞書だけで日本語いけると思うな、NEologdを使え」とのまさかりが飛んできたのでありがたく顔面正面から受け止めてみました。また、ElasticsearchのPluginで日本語解析ができる elasticsearch-analysis-kuromoji も使ってみました。構想した時点での所感（口語調） NEologdは現代語に対応しているらしいけど、今流行りだしたばかりの新語が横行するTwitterでどこまで通用するだろうか。 kuromojiは日本語分割はできるらしいけど、どこまで現代語的なのだろうか。リプやハッシュタグを取り除く方法はよく分からないな。環境前回をご参照ください。作業
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
elasticsearch-analysis-kuromoji-neologdの辞書を最新に置き換えて自前ビルド・インストール - Qiita
本家 https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd が5.x系のみの更新サポートになってしまったので 2.xユーザーが自前で更新する方法環境はCentOS 7.2 git clone -b 2.4.x https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd.git でソースを取得し、 pom.xml の 5.5.2-20161110 を http://maven.codelibs.org/org/codelibs/lucene-analyzers-kuromoji-ipadic-neologd/ の luceneのバージョン 5.5.2　の最新の日付のパスに変更する。＊例：5.5.2-20161229 3/10追記：デ
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Kuromojiについて - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kuromojiについて Kuromojiを使用するにあたっての雑記。ただのメモ。はじめに Kuromojiは日本語形態素解析エンジンであるが、そもそも形態素解析とは何？ってとこから。形態素解析とは文を単語に区切り品詞を定める処理以下の3つの処理を行っている単語の分割活用語処理（読みやすい形、意味のある形に変換すること）品詞を定めるといった順番で行っている。形態素解析の技術基本的な仕組み単語辞書形態素ラティス最小コスト法単語辞書形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというの
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PDIでKuromojiを使って形態素解析をする - Qiita
経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZIPフ
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
elyzer -> NameError: name 'unicode' is not defined - Qiita
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-em ail: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Kibanaを用いたSlackの統計情報の可視化と全文検索 - Qiita
本記事はSlack Advent Calendar 2017の1日目の記事です。概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
自作カナ変換プラグインでElasticsearchの日本語検索をいい感じにする - Qiita
はじめに Elasticsearch には日本語を形態素解析してくれる公式プラグインが存在します。長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。私ならこうします。検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
stoptags一覧 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Elasticsearchで品詞分解① (テンプレート編) 【追記あり】 - Qiita
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。この記事では、まずELSのテンプレートで登録するところまでをやります。プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Elasticsearchで品詞分解② (Kibana編) - Qiita
{ "body_txt": "jsoupというとスクレイピングがよくに出てきますが、こういう使い方もありますよ、という事で。ログイン->cookie保持->ログイン後処理というjsoupコードが日本語であんまりなかったので、せっかくの機会ですし纏めてみました。jsoupで一番苦労するのは、実際に処理が実行されるURLがどういうものなのか、を見つける事ですね。formで指定されていたり、リダイレクトされたり…メモ帳でtsvを触ると、なぜか先頭に?が入ってしまう、という謎の現象が起きたので、IPアドレスの取得方法には正規表現を使用しています。エディタの指定とかできないんで…つい昔の習慣で、beanを作って詰めてしまいますが、最近はこうじゃないんですかね…新しい方法も勉強しないと^^;", "execDate": "2018/01/16T10:40:00+09:00", "paragraph":
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
solrで日本語形態素解析結果を調べる(Mac版) - Qiita
ブラウザから管理画面起動 Core selector で mycore 選択左のメニューから「analysis」選択「Fieldname / Field type」で「text_ja」を選択 Filed Value(Query)に質問文を入力し、「Analysis Values」ボタンをクリック (一番上の「JT」(JapaneseTokenizer)の結果) (一番下の「LCF」(LowerCaseFilter)の結果) 補足デフォルトで自動生成される構成ファイル(solr-7.2.1/server/solr/mycore/conf/managed-schema)の「text_ja」部分 <fieldType name="text_ja" class="solr.TextField" autoGeneratePhraseQueries="false" positionIncreme
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
kuromoji.js（日本語形態素解析）の使い方 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
neologd 組み込みlucene kuromoji コンパイル環境のdocker化 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
kuromojiにヌル文字<0x00>を渡すとエラーになる - Qiita
TypeError: Cannot read property 'length' of undefined at ViterbiBuilder.build (~\node_modules\kuromoji\src\viterbi\ViterbiBuilder.js:53:48) at Tokenizer.getLattice (~\node_modules\kuromoji\src\Tokenizer.js:126:33) at Tokenizer.tokenizeForSentence (~\node_modules\kuromoji\src\Tokenizer.js:81:24) at ~\node_modules\kuromo jin\lib\kuromojin.js:60:26 at <anonymous> catchしてスキップすればいいだけなので困ってはいないが、原因調査。結
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Spark StreamingでTwitter構文解析 (Twitter4J利用) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
さだまさしを kuromoji を用いて簡単に品詞分解してみる - Qiita
さだまさし名詞-固有名詞-人名-一般さだまさしの、主に詩の歌詞を対象に、簡単な品詞分解と、それを基にした簡単な分析を行ってみた、というのがこの記事の内容です。個人的な最終的なゴールは、さだまさし風の歌詞を自動生成する bot (さだロボ) を作る事になりますが、その過程を週一でディアゴスティーニ的に（サダゴスティーニとかは節度のある大人なので言わない）書いていければと思います。ついでに、その道すがら、ちょっとした解析・分析結果なども書いていきます。道具の用意解析するにあたっていくつか道具が必要なので、最初に、使用したツール群について簡単にお話します。 kuromoji kuromoji KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。 Java で形態素解析を行いたい場合、昔は「Sen」などを使うことが多かったですが、atilika 社が
nabinno 2018/05/18
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
1 2 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx