日本語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き(単語の間に空白などを入れる)しないといけません。 本来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析(ソフト)は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlやRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 本格的に解析している人は除きます。多くの人が「分かち書き+品詞を知りたいくらい」だろうと想定しています。 まず分かち書き まず、日本語文章を分かち書き形式に変換しないといけません。分かち書きす
このページでは文章中から専門用語(キーワード)を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです! このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。 次のいずれかで専門用語(キーワード)を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定 文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定 入力ボックス下のチェックボックスから和文、英文を選択。 専門用語(キーワード)抽出ボタンをクリック しばらくすると専門用語(キーワード)が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの
はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。 また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。 インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは,外界で観測された現象をキーワード(シンボル)や数値に変換し,そのデータをコンピュータに与えます.コンピュータは,与えられたデータがどのような性質を持つのか計算し,データの中に埋もれている特徴的な事象を見出します.あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが,そういう訳ではありません. 現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません.例えば,「顔が白い」というパターンがマイニングで得られたとき,「顔」「白色」の
そもそもmecabを入れないとダメなのでmecabを入れます。 といっても私の場合はmroongaを使ってあることをしているので、mroongaのmecabを利用します。 ということなので、mroongaのリポジトリを使ってください。 % sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm % sudo yum makecache % sudo yum install -y mecab mecab-ipadic mecab-devel モデルファイル 辞書作成時にはある程度の語彙のコストを記録しているモデルファイルが必要です。 mecabの配布先でモデルファイルも配布しているので、それを利用します。 code.google.com テストなので、このファイルを/t
MeCab 辞書には、以前の記事でご紹介した「ユーザ辞書」と「システム辞書」の2種類があります。ユーザ辞書への単語の追加は、手軽な反面、解析速度が落ちるといったデメリットもあります。そこで今回は、MeCab の「システム辞書」に単語を追加する方法をご紹介します。また、最近話題の新語辞書 mecab-ipadic-neologd もシステム辞書に追加してみました。 作業の流れ MeCab のシステム辞書は1つのみ、というルールがあるため、IPA辞書のソースディレクトリに、追加したい単語のCSVファイルを配置して、システム辞書を作成します。また、追加する単語のコストは、mecab-ipadicのモデルファイル使った自動推定機能を使います。 下準備 MeCab と IPA辞書をインストールしておきます。 nkf コマンドのインストール IPA辞書の文字コードを、UTF-8 に変換するため、nkf
MeCab を使って、文章を単語に分割した時に、複数の単語が含まれる複合語などが、思ったように分割できない事があります。例えば「焼肉定食」は「焼肉」と「定食」の2つの単語に分割されてしまいます。MeCab には「最小単位の単語に分割する」という基本ルールがあるので、この分割は正しいのですが、実際に文章を解析する時は、1つの単語として扱いたくなります。そこで今回は、MeCab の辞書に単語を追加して、思ったように単語を分割する方法をご紹介します。 MeCab 辞書への単語の追加方法 辞書への単語の追加には、2つの方法があるようです。今回は「ユーザ辞書」へ単語を追加してみたいと思います。 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. ユーザ辞書への追加 システム辞書の更新は時間がかかります. 辞書の更新が頻繁
本日はnkfコマンドのインストールです。 京都の夏は暑いです。 昨日の豪雨はすごかったです。 http://matome.naver.jp/odai/2137568482832704101 ファイルの文字コードを確認したいときや変換(エンコード)したい場合に、nkf (Network Kanji Filter)コマンドがあります。 デフォルトでインストールされていなかったので、別途インストールする必要があります。 インストールは yum か、ソースから行います。 yumでインストール $ sudo yum install nkf インストールは簡単ですが、バージョンが古い場合があるので最新バージョンをインストールしたい場合は、ソースからコンパイルしてインストールします。 ソースからインストール ソースのダウンロード http://sourceforge.jp/projects/nkf/ か
こんばんは。 今回はMacにmecabを入れ、PHPで使えるようにしたいと思います。 なお、私の場合はphpenvでPHPを管理しているので、以下はそちらに合わせた環境構成となります。 mecabインストール まずはmecabのインストールです。 Homebrewで簡単に出来ます。ついでに辞書もインストールします。 辞書はipadicがデファクトスタンダードなようですのでこれをインストールします。 $ brew install mecab $ brew install mecab-ipadic # インストールが終わったらテストです $ mecab すもももももももものうち テストしてみて結果が出ればOKです。 Homebrewでインストールした辞書は、必要最低限の構成しかないみたい(CSVとかがない)なので、ソースファイルをDLしてきて全てのファイルを移動しておきます。 $ wget h
mecabのインストール $ brew install mecab $ brew install mecab-ipadic wikipediaとhatenaのキーワードファイルの取得 $ curl -L http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv | iconv -f euc-jp -t utf-8 > keywordlist_furigana.csv $ curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns0 辞書作成コードを用意する(make_dict.rb) gist88bfb2936690d5508a8c $
mecabは形態素解析を行ってくれるソフトウェアです。これをCentOSにインストールする手順です。 mecabは本体と辞書の2つの要素から成り立ってます。こちらの記事では、最新の言葉が利用できる強力なユーザ辞書【mecab-ipadic-neologd】を利用する方法を紹介しています。併せてインストールすると良いと思います。 ついでに、mecab_split関数をPHPで使えるようにもしてみます。 ■Mecab本体のインストール ○ダウンロード 以下のコマンドでダウンロードします。例ではwgetを利用していますが、別にダウンロードできればなんでも構いません。 wget -O mecab-0.996.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE" ○展開する 以下のコマ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く