Yule K, Golcher VM † † 3 K, Z, VM H r 5 K VM 2 2 A Study on Constants of Natural Language Texts Daisuke Kimura† and Kumiko Tanaka-Ishii† This paper considers various measures which become constant for any large lengths of a given natural language text. Consideration of such measures gives some hints for studies of complexity of natural language. Previously, such measures have been stud- ied mainly
cc licensed ( BY ) flickr photo shared by Loco Steve 週末に試そうのコーナー。 ちょうど良いチュートリアルがあったので、データセットを用意してやってみました。 問題 How can I get a computer to tell me what an article is about (provided methods such as bribery and asking politely do not work)? ある記事が何について書かれているのか、コンピュータに理解させるにはどうすれば良いか? チュートリアルでは手動で作ったデータを使って犬もしくはサンドイッチの2クラス分類をしています。 ここでは、Google NewsでiPadのニュース、ソチ五輪のニュースとカテゴリ分けされている記事のタイトルを使って、 あるタイトルがiPa
はじめに 品詞のつながりや出現頻度、学習情報から複合語らしきキーワードを自動で抽出するPerlモジュールTermExtractが公開されています。 これを利用すれば、形態素解析済みのテキストを食わせるだけでそこそこそれらしい専門用語をたくさん得ることができます。 このTermExtractは、ソースからインストールする必要があったり、EUC環境であったり形態素解析後のデータを入力に必要としたりなかなかめんどくさいです。 そこで、MeCabとTermExtractが自動で環境構築されるDockerファイルを作りました。 https://github.com/naoa/docker-termextract このDockerファイルでは、正規表現フィルタや形態素解析、コスト推定などを自動でやってくれるPerlスクリプトも自動で導入されるようになっています。 これでDockerを実行できる環境があ
日本語の文章を単語に分割するには形態素解析を使います。日本語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類(2010/7/3)でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよく使うので再度まとめ直して独立したエントリにしました。Yahoo!形態素解析の使い方は、Yahoo!形態素解析API(2009/4/15)で書きました。 Windowsへの導入方法 MeCabは高性能な形態素解析モジュールでPython、 Ruby、Perl、Javaなどさまざまな言語から使えます。Mac OS XとLinuxでは簡単にコンパイルしてインストールができるのですが、WindowsではMinGWやVisual Studioのインストール、コードの修正が必要でかなり面倒くさい。そこで、Pythonモジュー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く