Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。 この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。 文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence
reading ./mecab-user-dict-seed.20170123.csv ... /home/webmanager/mecab-0.996/mecab-ipadic-2.7.0-20070801/mecab-ipadic-neologd/bin/../libexec/make-mecab-ipadic-neologd.sh: 466 行: 25644 中止 ${MECAB_LIBEXEC_DIR}/mecab-dict-index -f UTF8 -t UTF8 こんな感じのエラーが出るんですよね。もともとmecabをyumでインストールしていて、UTF8の問題なのかなぁといろいろ調べていました。しあkし、結局はファイルをコピーしている時にメモリ不足でエラーが起こるみたいです。 ですので、対処方法はスワップを作ってあげればオッケーです
ジャポルノレディーズであいまい検索が最も役だったのが名寄せでした。 ジャポルノレディーズでは基本的に動画は全て他のエロサイトへのリンクで提供しているので明日花キララさんの動画を探す上で他のエロサイトから明日花キララさんの動画を探す作業が必須です。 しかし問題は ・エロサイト毎に明日花キララさんのアルファベット表記がバラバラ という事でした。 エロサイトAではasuka_kirara エロサイトBではasuka_kilala エロサイトCではashitaka_kirara ・ ・ ・ という感じ。うちではasuka_kiraraでデータを持っているので、当然asuka_kilalaと名前のついている動画もasuka_kiraraの動画としてデータを保存したい!という訳です。 そこであいまい検索が役立ちます。 まずは普通のmatchクエリでasuka_kilalaを検索します。 # codin
この記事の内容 Juman++をサーバーモードで利用すると、はかどる話 形態素解析を簡単に実行するPythonパッケージでJuman++を利用可能にした話 Juman++とは? Juman++とは京大・黒橋研究室で開発された形態素解析器です。 「それ、Mecabと何が違うん?」と言う点ですが、Juman++では「RNN(いわゆるディープラーニング系のやつ)言語モデルを利用している」点が異なります。 Qiitaでも紹介記事が徐々に増えつつあり、今後の普及が楽しみです。 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話 複数の形態素解析器を見比べる Juman++のちょっと気になる点 依存ライブラリを新しくしないといけない。特にgcc周り 遅い 依存ライブラリ問題は、gccを更新して、他のコード郡が動かなくなるかもしれない・・・という懸念はあ
はじめに JUMAN++は黒橋・河原研究室から発表されたRNNを使用した形態素解析器です. 本記事ではPythonラッパーを通じてJUMAN++を使用する方法を紹介します. 単純にJUMAN(形態素解析器),KNP(構文解析器),PyKNP(JUMANとKNPのPythonバインディング)のインストール方法なので,これらの導入の参考にもなるかと思います. 導入方法 JUMAN++はPyKNPを通じて利用することができます. PyKNPはJUMANとKNPに依存しているため,まず先にこれらをインストールしていきます. 前提 ubuntu-16.04 こちらを参考にJUMAN++をインストールしていること JUMANのインストール まず以下のコマンドでJUMANをインストールします.
JUMAN++とは 黒橋・河原研究室が公開した日本語の形態素解析器です。以下、サイトの紹介文 JUMAN++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. Dockerで環境構築 自分の環境はいじりたくないけど試してみたいということで、Dockerで試してみようと思います。 HOW TO docker pull kyobad/jumanpp-al
import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.util.CharArraySet; import org.codelibs.neologd.ipadic.lucene.analysis.ja.JapaneseAnalyzer; import org.codelibs.neologd.ipadic.lucene.analysis.ja.Jap
TL;DR Qiita記事タイトルの頻出パターン(例:「◯◯で△△を□□する」「◯◯で△△の□□を✗✗する」)を分析してみた 「What」に注目したタイトルと「How」に注目したタイトルに分かれることが判明した 背景 別件でQiitaに記事を投稿しようと思って記事を書いていたら、ふと「Qiitaの記事はどんなタイトルをつけるのが良いんだろう?」と気になってしまったので、記事タイトルの頻出パターンを分析してみることにしました。 実装 コード全文はGistに上げました。 Qiitaのタイトルから頻出パターンを導く 1. 記事タイトルを集めよう Qiita APIで新着記事を取れるだけ取ってきます。titleだけ取り出してファイルへ保存。 for i in $(seq 1 100); do; curl 'http://qiita.com/api/v2/items?per_page=100&pag
tl;dr Task: SSの本文から原作(10作品)を推定(教師あり学習。Classification) Feature Engineering: 本文内の単語 + TF-IDF Classifier: SVM, Logistic Regression, Random Forest Accuracy: 98.5% Jupyter Notebook(GitHub上) 背景 最近RailsやNode.jsを書くサーバエンジニアから、広告配信を最適化する機械学習エンジニアへと転身しつつありまして、日々Courseraのビデオを見たり論文を読んだりしています。 サーバエンジニア時代も当時のスキルを活かすために趣味でアプリを作ったりしていたので、今回は最近身につけた機械学習スキルを使って、趣味レベルで少し遊んでみることにしました。 といっても、すでにやり尽くされているMNIST(手書き文字の数字)
Travis CI には MeCab が入っていない Travis CI の box には最初 MeCab が入っていません。 こういう場合、普通なら .travis.yml の before_install を用いて以下のように MeCab をインストールするでしょう。 しかし、Travis の apt-get で入ってくる MeCab は古い (0.98) ので、例えば natto gem を使うようなアプリケーションが実行できません。 これでは Travis が赤くなって困るので、何とかして最新版 (2014/05/31 現在 0.996) を入れたいところです。 解決策: apt-get を使わず直にインストールする 最新の MeCab ソースコードを公式 Google Code から落としてきて、自家ビルド & インストールすれば良いのです。 基本的に公式インストールガイドの通り
$ git push heroku master Counting objects: 5, done. Delta compression using up to 2 threads. Compressing objects: 100% (5/5), done. Writing objects: 100% (5/5), 562 bytes | 0 bytes/s, done. Total 5 (delta 3), reused 0 (delta 0) remote: Compressing source files... done. remote: Building source: remote: remote: -----> Fetching set buildpack https://github.com/heroku/heroku-buildpack-multi... done re
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く