[B! qiita][analytics][machine-learning] [17ページ] nabinnoのブックマーク

nabinno id:nabinno

qiitaとanalyticsとmachine-learningに関するnabinnoのブックマーク (854)

SageMakerのノートブックインスタンス環境にMecabをインストールする際に困ったこと - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

mecab

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
AWS EC2上にNExTをインストールする - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

chasen

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
EC2上にChasen環境をつくる - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

chasen

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
形態素解析ツールの辞書を追加する - Qiita
sudo yum install php-common php-devel php-cli php-pear sudo yum install pcre-devel sudo yum install php-mbstring git clone https://github.com/miraoto/php.mod-mecab-dic.git cd php.mod-mecab-dic mkdir mkdir mod-mecab-dic/tmp cd mod-mecab-dic/tmp wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz php ./mod-mecab-dic/bootstrap.php wikipedia cd mod-mecab-dic/tmp mv mecab-d
nabinno 2018/08/27
qiita

chasen

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
ChaSenをUTF-8用にインストール - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

chasen

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
ChaSen を mac にインストールする際のリンクエラー - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

chasen

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
FESS で収集した情報を Ruby で取り出す - Qiita
FESS で収集した情報を Ruby で取り出す機械学習関連情報の収集と分類(構想)の FESS / Elasticsearch 関連部分の詳細です。実際に調べた時点から半年ほど時間が経っていますので、現状と若干ずれがあるかもしれません。 (1) 記事のスキーマ FESS はクロールした記事の管理に Elasticsearch を使っています。そのスキーマ構造はドキュメントを探しても見つかりませんでした。が…、FESS の管理画面( http://localhost:8090/admin/dashboard/ 1 ) で、more -> analysis を選択すると ANALYZE BY FIELD TYPE というプルダウンが現れるので、index name / type /field name をプルダウンしてスキーマ構造を確認することができるようです。結果、/fess/do
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Crowiで検索を有効化する(CentOS 6.8) - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
自分で逃げ恥を分析しませんか？ - Qiita
序文どうも、再びの新人です。前回の続きです。前回mecabだけを使っていたらうまくいかなくて、そのまま世にお披露目をしたところ各方面（qiitaやtwitterやほぼ全方面）から「IPA辞書だけで日本語いけると思うな、NEologdを使え」とのまさかりが飛んできたのでありがたく顔面正面から受け止めてみました。また、ElasticsearchのPluginで日本語解析ができる elasticsearch-analysis-kuromoji も使ってみました。構想した時点での所感（口語調） NEologdは現代語に対応しているらしいけど、今流行りだしたばかりの新語が横行するTwitterでどこまで通用するだろうか。 kuromojiは日本語分割はできるらしいけど、どこまで現代語的なのだろうか。リプやハッシュタグを取り除く方法はよく分からないな。環境前回をご参照ください。作業
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
elasticsearch-analysis-kuromoji-neologdの辞書を最新に置き換えて自前ビルド・インストール - Qiita
本家 https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd が5.x系のみの更新サポートになってしまったので 2.xユーザーが自前で更新する方法環境はCentOS 7.2 git clone -b 2.4.x https://github.com/codelibs/elasticsearch-analysis-kuromoji-neologd.git でソースを取得し、 pom.xml の 5.5.2-20161110 を http://maven.codelibs.org/org/codelibs/lucene-analyzers-kuromoji-ipadic-neologd/ の luceneのバージョン 5.5.2　の最新の日付のパスに変更する。＊例：5.5.2-20161229 3/10追記：デ
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Kuromojiについて - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kuromojiについて Kuromojiを使用するにあたっての雑記。ただのメモ。はじめに Kuromojiは日本語形態素解析エンジンであるが、そもそも形態素解析とは何？ってとこから。形態素解析とは文を単語に区切り品詞を定める処理以下の3つの処理を行っている単語の分割活用語処理（読みやすい形、意味のある形に変換すること）品詞を定めるといった順番で行っている。形態素解析の技術基本的な仕組み単語辞書形態素ラティス最小コスト法単語辞書形態素解析を行うにあたって、単語を分割する必要があるがどこで切ればいいかというの
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PDIでKuromojiを使って形態素解析をする - Qiita
経緯など Pentaho Data Integartion(PDI)上で形態素解析する必要があったので調査とメモ。 PDIがJavaで実装されているため呼び出しやすいようにJavaの形態素解析器を調べたところ、Kuromojiがあったので、そちらを利用させていただくことにしました。ただ、Javaで書いてPDIで呼ぶのも面倒だったので、結局Jython経由で利用しています。使用環境 PDI 7.1 Java Version 8 Update 131 Kuromoji 0.7.7 Jython 2.7.0 設定手順 PDIはこちらからダウンロードしてきたZIPファイルを適当な場所に解凍しておくだけでよい ※解凍すると"data-integration"というディレクトリができるがこの辺りは割愛 ※あとJavaが必要なので事前にインストールしておく KuromojiをGitHubからZIPフ
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
elyzer -> NameError: name 'unicode' is not defined - Qiita
$ pip show elyzer Name: elyzer Version: 1.1.0 Summary: Step-by-Step Debug Elasticsearch Analyzers Home-page: https://github.com/o19s/elyzer Author: Doug Turnbull Author-em ail: dturnbull@o19s.com License: Apache Location: /usr/lib/python3.4/site-packages $ elyzer --es http://host:9200 --index esindex --analyzer my_analyzer 'スモモ' Requires: elasticsearch Traceback (most recent call last): File "/usr/
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Kibanaを用いたSlackの統計情報の可視化と全文検索 - Qiita
本記事はSlack Advent Calendar 2017の1日目の記事です。概要 Kibanaを用いてSlackの過去ログから統計情報の可視化と全文検索を行う方法を紹介します。 Slackの過去ログをELKのような全文検索エンジンに入れることで、以下のメリットが得られます。 Slackの提供していない統計情報の可視化無料版Slackのメッセージ数制限を超えて全ての過去ログから全文検索本記事では、簡単のためDockerでELKスタックを立ち上げ、自作したスクリプトでSlackの過去ログを流し込み、Kibanaから可視化と全文検索を行う方法を解説します。 Slackの過去ログのexport 過去ログのexportは、workspaceのadminのみが行えます Slackの過去ログは https://my.slack.com/services/export からzip形式でダウンロー
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
自作カナ変換プラグインでElasticsearchの日本語検索をいい感じにする - Qiita
はじめに Elasticsearch には日本語を形態素解析してくれる公式プラグインが存在します。長い日本語の文章からキーワードをいい感じに抜き出してくれてとても便利なのですが、単語だけのデータとか短い日本語は苦手なようで、うまくいかないことがあります。たとえば、「サイトウ」さんみたいに漢字が「斉藤」とか「斎藤」とか「齋藤」とか何種類かある場合は全然マッチしてくれません。 kuromoji_readingform token filter で全部カナに変換しておくことである程度吸収できるのですが、これを使うときはあらかじめ kuromoji_tokenizer でトークンごとに分けておく必要があります。検索ボックスに何をを入力するか考えてみてほしいのですが、こういう検索をするのは珍しいと思います。私ならこうします。検索ワードの切れ目は自分で決めたい人が多いのではないのでしょう
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
stoptags一覧 - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PHP で JUMAN を叩く - Qiita
形態素解析に用いられるJUMANですが、扱える言語がPerlやPythonです。Rubyで扱っている記事も見つけますが、PHPで書かれたものはなかったので、メモしておきます。（2015/9/4：　@mpywさんからを受けたので追記をしました） proc_open を使った方法 <?php function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は、子プロセスが書き込むパイプです。 ); $process = proc_open('juman', $descriptorspec, $pipes); if (is_resource($process)) { // $pipes
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
Elasticsearchで品詞分解① (テンプレート編) 【追記あり】 - Qiita
ELSには日本語解析プラグインが用意されています。 Japanese (kuromoji) Analysis Plugin | Elasticsearch Plugins and Integrations [6.1] | Elastic Java等で品詞分解する事ももちろんできますが、ELSのテンプレートを利用する事で、Kibana上で品詞分解表示などが出来ます。この記事では、まずELSのテンプレートで登録するところまでをやります。プラグインインストール Elasticsearchの日本語の形態素解析をする際に利用されるkuromojiは非常に便利ですが、その辞書であるIPADICは更新が止まっているためやや古い状態です。その辞書を更新してくださった方がいらっしゃり、neologdとして公開されているためそれを導入して新語でもきちんと解析できるようにします。 neologdでkuro
nabinno 2018/08/27
qiita

kuromoji

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
PHP で JUMAN を扱う（改良） - Qiita
$ juman 国立図書館国立こくりつ国立名詞 6 普通名詞 1 * 0 * 0 "代表表記:国立/こくりつカテゴリ:抽象物ドメイン:教育・学習;政治" @ 国立くにたち国立名詞 6 地名 4 * 0 * 0 "代表表記:国立/くにたち地名:日本:東京都:市" 図書としょ図書名詞 6 普通名詞 1 * 0 * 0 "代表表記:図書/としょカテゴリ:抽象物ドメイン:文化・芸術" 館かん館名詞 6 普通名詞 1 * 0 * 0 "代表表記:館/かん漢字読み:音カテゴリ:場所-施設" function juman($text) { $descriptorspec = array( 0 => array("pipe", "r"), // stdin は、子プロセスが読み込むパイプです。 1 => array("pipe", "w"), // stdout は
nabinno 2018/08/27
qiita

juman

morphological-analysis

natural-language-processing

machine-learning

analytics
リンク
素人の言語処理100本ノック:48 - Qiita
言語処理100本ノック 2015の挑戦記録です。環境はUbuntu 16.04 LTS ＋ Python 3.5.2 :: Anaconda 4.1.1 (64-bit)です。過去のノックの一覧はこちらからどうぞ。第5章: 係り受け解析夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をCaboChaを使って係り受け解析し，その結果をneko.txt.cabochaというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ． 48. 名詞から根へのパスの抽出文中のすべての名詞を含む文節に対し，その文節から構文木の根に至るパスを抽出せよ．ただし，構文木上のパスは以下の仕様を満たすものとする．各文節は（表層形の）形態素列で表現するパスの開始文節から終了文節に至るまで，各文節の表現を"->"で連結する「吾輩はここで始めて人間というものを見た」とい
nabinno 2018/08/27
qiita

cabocha

parsing

natural-language-processing

machine-learning

analytics
リンク
前のページ 13 14 15 16 17 18 19 20 21 22 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx