Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 最近、畳み込みニューラルネットワーク(CNN)を用いた自然言語処理が注目を集めています。CNNはRNNと比べて並列化しやすく、またGPUを使うことで畳み込み演算を高速に行えるので、処理速度が圧倒的に速いという利点があります。 この記事は、自然言語処理における畳み込みニューラルネットワークを用いたモデルをまとめたものです。CNNを用いた自然言語処理の研究の進歩を俯瞰するのに役立てば幸いです。 文の分類(評判分析・トピック分類・質問タイプ分類) Convolutional Neural Networks for Sentence
ジャポルノレディーズであいまい検索が最も役だったのが名寄せでした。 ジャポルノレディーズでは基本的に動画は全て他のエロサイトへのリンクで提供しているので明日花キララさんの動画を探す上で他のエロサイトから明日花キララさんの動画を探す作業が必須です。 しかし問題は ・エロサイト毎に明日花キララさんのアルファベット表記がバラバラ という事でした。 エロサイトAではasuka_kirara エロサイトBではasuka_kilala エロサイトCではashitaka_kirara ・ ・ ・ という感じ。うちではasuka_kiraraでデータを持っているので、当然asuka_kilalaと名前のついている動画もasuka_kiraraの動画としてデータを保存したい!という訳です。 そこであいまい検索が役立ちます。 まずは普通のmatchクエリでasuka_kilalaを検索します。 # codin
この記事の内容 Juman++をサーバーモードで利用すると、はかどる話 形態素解析を簡単に実行するPythonパッケージでJuman++を利用可能にした話 Juman++とは? Juman++とは京大・黒橋研究室で開発された形態素解析器です。 「それ、Mecabと何が違うん?」と言う点ですが、Juman++では「RNN(いわゆるディープラーニング系のやつ)言語モデルを利用している」点が異なります。 Qiitaでも紹介記事が徐々に増えつつあり、今後の普及が楽しみです。 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話 複数の形態素解析器を見比べる Juman++のちょっと気になる点 依存ライブラリを新しくしないといけない。特にgcc周り 遅い 依存ライブラリ問題は、gccを更新して、他のコード郡が動かなくなるかもしれない・・・という懸念はあ
はじめに 研究でKNPが必要になったので、現在使用しているWindows 7 64bit環境に導入してみました。 備忘録として残します。 KNPは京都大学の黒橋・河原研究室で開発された日本語構文・格・照応解析システムのことです。 文を入れると単語同士の関係性を下の画像のように表示してくれます。 JumanはKNPで構文解析する前に行われる形態素解析器です。 参考にした情報は以下です(ありがとうございました!): 導入時 JUMAN/KNPを用いた 形態素解析・構文解析 実習 pythonでの使用時(英語) PyKNP: KNP/JUMAN for Python 必要なもの KNP Ver.4.11 (Windows 64bit版) Juman Ver 7.0 (Windows 64bit版) pythonのバインディング: pyknp(pyknp-0.22.tar.gz をダウンロード)
はじめに JUMAN++は黒橋・河原研究室から発表されたRNNを使用した形態素解析器です. 本記事ではPythonラッパーを通じてJUMAN++を使用する方法を紹介します. 単純にJUMAN(形態素解析器),KNP(構文解析器),PyKNP(JUMANとKNPのPythonバインディング)のインストール方法なので,これらの導入の参考にもなるかと思います. 導入方法 JUMAN++はPyKNPを通じて利用することができます. PyKNPはJUMANとKNPに依存しているため,まず先にこれらをインストールしていきます. 前提 ubuntu-16.04 こちらを参考にJUMAN++をインストールしていること JUMANのインストール まず以下のコマンドでJUMANをインストールします.
JUMAN++とは 黒橋・河原研究室が公開した日本語の形態素解析器です。以下、サイトの紹介文 JUMAN++は言語モデルを利用した高性能な形態素解析システムです.言語モデルとして Recurrent Neural Network Language Model(RNNLM) を用いることにより,単語の並びの意味的な自然さを考慮した解析を行います.それにより JUMAN,MeCab に比べ大きく性能が向上しています.文法・辞書・出力フォーマット等は JUMAN から引き継いだものを利用しています.本システムは CREST「知識に基づく構造的言語処理の確立と知識インフラの構築」の支援により開発されました. Dockerで環境構築 自分の環境はいじりたくないけど試してみたいということで、Dockerで試してみようと思います。 HOW TO docker pull kyobad/jumanpp-al
Rで形態素解析をしてみたので、インストールから簡単なデモまで一通り説明します。 Rを使って形態素解析をすると、いろんなソフトを行ったり来たりせずに一貫して、分析が進められるのでなかなか便利です。 #設定した環境 iMac (27-inch, Mid 2010) プロセッサ: 2.8 GHz Intel Core i5 メモリ: 12 GB 1333 MHz DDR3 R : 3.3.0 #準備 ##Homebrewを入れる MacにMeCabを入れるにはいくつか方法がありましたが、 Homebrewで入れるのが比較的簡単だったので、今回はHomebrewでMeCabをインストールします。 まずはHomebrewを入れていない人向けに簡単にHomebrewのインストールからしていきましょう。 以下のサイトに行くと指定のコマンドがあるのでそれをターミナルから実行します。 インストールが完了した
以前mecab-python周りは導入が面倒くさかったのでDockerfileにまとめておこう。 REST APIの部分はこちらを参考にFlaskで実装しました。 ソースはgithubにあります。 ついでにdocker-composeも使ってみたらこれは便利。今回みたいにコンテナ1つだとあまり旨味はないけど。 [2016-10-07 追記] 辞書ファイルの更新について追記。 [2018-03-11 追記] フロントエンドを追加。 Dockerfile 今回の成果物です。 FROM ubuntu:16.04 RUN apt-get update \ && apt-get install python3 python3-pip curl git sudo cron -y \ && apt-get clean \ && rm -rf /var/lib/apt/lists/* WORKDIR /o
import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.util.CharArraySet; import org.codelibs.neologd.ipadic.lucene.analysis.ja.JapaneseAnalyzer; import org.codelibs.neologd.ipadic.lucene.analysis.ja.Jap
TL;DR Qiita記事タイトルの頻出パターン(例:「◯◯で△△を□□する」「◯◯で△△の□□を✗✗する」)を分析してみた 「What」に注目したタイトルと「How」に注目したタイトルに分かれることが判明した 背景 別件でQiitaに記事を投稿しようと思って記事を書いていたら、ふと「Qiitaの記事はどんなタイトルをつけるのが良いんだろう?」と気になってしまったので、記事タイトルの頻出パターンを分析してみることにしました。 実装 コード全文はGistに上げました。 Qiitaのタイトルから頻出パターンを導く 1. 記事タイトルを集めよう Qiita APIで新着記事を取れるだけ取ってきます。titleだけ取り出してファイルへ保存。 for i in $(seq 1 100); do; curl 'http://qiita.com/api/v2/items?per_page=100&pag
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く