[B! 自然言語処理] kupoyukiのブックマーク

kupoyuki id:kupoyuki

自然言語処理に関するkupoyukiのブックマーク (15)

https://www.jnlp.org/
kupoyuki 2017/06/23
自然言語処理

テキストマイニング

研究

論文
リンク
単語の出現頻度を求める --- 興味語の抽出は簡単じゃありませんよ ---
日本語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き（単語の間に空白などを入れる）しないといけません。本来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析（ソフト）は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlやRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 本格的に解析している人は除きます。多くの人が「分かち書き＋品詞を知りたいくらい」だろうと想定しています。まず分かち書きまず、日本語文章を分かち書き形式に変換しないといけません。分かち書きす
kupoyuki 2017/06/23
自然言語処理

MeCab
リンク
専門用語（キーワード）自動抽出サービス「言選Web」
このページでは文章中から専門用語（キーワード）を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです！このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。次のいずれかで専門用語（キーワード）を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定入力ボックス下のチェックボックスから和文、英文を選択。専門用語（キーワード）抽出ボタンをクリックしばらくすると専門用語（キーワード）が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの
kupoyuki 2017/06/23
自然言語処理

テキストマイニング

Webサービス

形態素解析
リンク
TTM: TinyTextMiner β version
はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
kupoyuki 2017/06/23
テキストマイニング

MeCab

自然言語処理
リンク
Polaris -
Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは，外界で観測された現象をキーワード（シンボル）や数値に変換し，そのデータをコンピュータに与えます．コンピュータは，与えられたデータがどのような性質を持つのか計算し，データの中に埋もれている特徴的な事象を見出します．あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが，そういう訳ではありません．現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません．例えば，「顔が白い」というパターンがマイニングで得られたとき，「顔」「白色」の
kupoyuki 2017/06/23
データマイニング

テキストマイニング

自然言語処理
リンク
d3.jsでCSVファイル/TSVファイルを扱う - Qiita
CSVファイルの読み込みヘッダ付きCSVファイルの読み込み d3.csv(url, callback)で各列の値をプロパティとして持つオブジェクトの配列が作成される。
kupoyuki 2015/09/08
d3の記事もストックしていきたい、csvの処理

自然言語処理

d3.js
リンク
mecabの辞書を自動コストで作成 - Qiita
そもそもmecabを入れないとダメなのでmecabを入れます。といっても私の場合はmroongaを使ってあることをしているので、mroongaのmecabを利用します。ということなので、mroongaのリポジトリを使ってください。 % sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm % sudo yum makecache % sudo yum install -y mecab mecab-ipadic mecab-devel モデルファイル辞書作成時にはある程度の語彙のコストを記録しているモデルファイルが必要です。 mecabの配布先でモデルファイルも配布しているので、それを利用します。 code.google.com テストなので、このファイルを/t
kupoyuki 2015/09/07
コストの自動設定の件、興味深いけどうまくいかないのでまた今度

MeCab

自然言語処理
リンク
MeCab システム辞書への単語追加（mecab-ipadic-neologd）
MeCab 辞書には、以前の記事でご紹介した「ユーザ辞書」と「システム辞書」の２種類があります。ユーザ辞書への単語の追加は、手軽な反面、解析速度が落ちるといったデメリットもあります。そこで今回は、MeCab の「システム辞書」に単語を追加する方法をご紹介します。また、最近話題の新語辞書 mecab-ipadic-neologd もシステム辞書に追加してみました。作業の流れ MeCab のシステム辞書は１つのみ、というルールがあるため、IPA辞書のソースディレクトリに、追加したい単語のCSVファイルを配置して、システム辞書を作成します。また、追加する単語のコストは、mecab-ipadicのモデルファイル使った自動推定機能を使います。下準備 MeCab と IPA辞書をインストールしておきます。 nkf コマンドのインストール IPA辞書の文字コードを、UTF-8 に変換するため、nkf
kupoyuki 2015/09/07
ユーザ辞書への認識はうまくいかなかったので結局こちらでやるしか

MeCab

自然言語処理

形態素解析
リンク
MeCab ユーザ辞書への単語追加
MeCab を使って、文章を単語に分割した時に、複数の単語が含まれる複合語などが、思ったように分割できない事があります。例えば「焼肉定食」は「焼肉」と「定食」の２つの単語に分割されてしまいます。MeCab には「最小単位の単語に分割する」という基本ルールがあるので、この分割は正しいのですが、実際に文章を解析する時は、１つの単語として扱いたくなります。そこで今回は、MeCab の辞書に単語を追加して、思ったように単語を分割する方法をご紹介します。 MeCab 辞書への単語の追加方法辞書への単語の追加には、２つの方法があるようです。今回は「ユーザ辞書」へ単語を追加してみたいと思います。システム辞書への追加辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接システム辞書を変更するのがよいでしょう. ユーザ辞書への追加システム辞書の更新は時間がかかります. 辞書の更新が頻繁
kupoyuki 2015/09/06
ユーザ辞書登録のやり方はこれでいけそうだけど、なぜか認識せず

MeCab

自然言語処理
リンク
nkfコマンドのインストール - 本日も乙
本日はnkfコマンドのインストールです。京都の夏は暑いです。昨日の豪雨はすごかったです。 http://matome.naver.jp/odai/2137568482832704101 ファイルの文字コードを確認したいときや変換(エンコード)したい場合に、nkf (Network Kanji Filter)コマンドがあります。デフォルトでインストールされていなかったので、別途インストールする必要があります。インストールは yum か、ソースから行います。 yumでインストール $ sudo yum install nkf インストールは簡単ですが、バージョンが古い場合があるので最新バージョンをインストールしたい場合は、ソースからコンパイルしてインストールします。ソースからインストールソースのダウンロード http://sourceforge.jp/projects/nkf/ か
kupoyuki 2015/09/06
nkfコマンド

自然言語処理
リンク
mecabのインストールと辞書追加 - Furudateのブログ
こんばんは。今回はMacにmecabを入れ、PHPで使えるようにしたいと思います。なお、私の場合はphpenvでPHPを管理しているので、以下はそちらに合わせた環境構成となります。 mecabインストールまずはmecabのインストールです。 Homebrewで簡単に出来ます。ついでに辞書もインストールします。辞書はipadicがデファクトスタンダードなようですのでこれをインストールします。 $ brew install mecab $ brew install mecab-ipadic # インストールが終わったらテストです $ mecab すもももももももものうちテストしてみて結果が出ればOKです。 Homebrewでインストールした辞書は、必要最低限の構成しかないみたい（CSVとかがない）なので、ソースファイルをDLしてきて全てのファイルを移動しておきます。 $ wget h
kupoyuki 2015/09/06
yumでいれると “/usr/local/etc/mecabrc”じゃなくて"/etc/mecabrc"になるので注意

自然言語処理

MeCab
リンク
mecabにwikipediaとhatenaキーワードのユーザ辞書を適用する（ついでに、辞書にない場合はそれもわかるようにするオプション付き） - すがブロ
mecabのインストール $ brew install mecab $ brew install mecab-ipadic wikipediaとhatenaのキーワードファイルの取得 $ curl -L http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv | iconv -f euc-jp -t utf-8 > keywordlist_furigana.csv $ curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns0 辞書作成コードを用意する(make_dict.rb) gist88bfb2936690d5508a8c $
kupoyuki 2015/09/06
去年はなかったもっと良いやり方　ニコニコも追加だ

MeCab

Ruby

自然言語処理
リンク
さくらVPSにMeCabをインストールしてPHPから利用（CentOS6.4+PHP5.3.3/5.4.2） - 青春B■雑記blog‐青酸カリカラメルシロップ味‐
サーバ：さくらVPS OS：CentOS6.4 PHP：5.3.3（5.4.2でも同様でした） MeCab：0.996 IPAdic：2.7.0 php-mecab：0.5.0 文字コード：UTF-8 本記事ではディレクトリ構成がデフォルトのままであることを前提に進めていますので、構成をいじっている方はそれに合わせて変更してください。さくらVPSへのMeCabインストールを取り上げたblog記事はすでにいくらでもあるのですが、バージョンが古かったり環境が微妙に違っていたりもするので、こうして新しい情報を掲載するのも、まあ、意味があるのではないかと。
kupoyuki 2015/08/31
なんとphp-mecabではなくただのMeCabを一生懸命インストールしていたことが発覚しました.解決.アンインストールとかいろいろ大変だった（みてただけ）

PHP

MeCab

自然言語処理
リンク
MecabをCentOSにインストールして、PHPからも使えるようにする
mecabは形態素解析を行ってくれるソフトウェアです。これをCentOSにインストールする手順です。 mecabは本体と辞書の２つの要素から成り立ってます。こちらの記事では、最新の言葉が利用できる強力なユーザ辞書【mecab-ipadic-neologd】を利用する方法を紹介しています。併せてインストールすると良いと思います。ついでに、mecab_split関数をPHPで使えるようにもしてみます。 ■Mecab本体のインストール ○ダウンロード以下のコマンドでダウンロードします。例ではwgetを利用していますが、別にダウンロードできればなんでも構いません。 wget -O mecab-0.996.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE" ○展開する以下のコマ
kupoyuki 2015/08/31
phpでMeCabをインストールできない：makeできない問題、この方法ならできました ver.違い？なんなの

php

自然言語処理

MeCab
リンク
日本語品詞分解ツール | konisimple tool
入力された文章を品詞分解して、見やすく表示します。入力するたびに表示されるので、日本語の文法の学習にご利用ください。研究等のためCSVでもダウンロードできます。
kupoyuki 2015/08/24
きれいなインタフェース

自然言語処理
リンク
1