2012年8月24日加筆 高価なソフトを使わずにMacで英文のテキストマイニングをするには,以下のようにRが有効です。ですが,Rで英文の品詞を解析し,下のような共起語のリストを作るのは,実は少々やっかいです。Mac App Storeで,英文を品詞解析し,頻出語のリストや共起語のリストを作るソフトがリリースされました。 iText Analyzer このiText Analyzerを使って,wordやテキスト形式のファイルからクリック1つで共起語のリストを作ることができるようになりました。あとは,以下のようにRを使ってグラフ化してやれば,簡単なテキストマイニングの完成です。 - - - 加筆ここまで 質問を受けたので,ここで書いておきます。昨日の記事に載っけた,Rを使ったネットワークグラフの書き方。 まず,Excelでcsv形式の共起語の頻度が並んだデータを用意。以下のようなもの。ファイル
今日は、こんなグラフを作ってみました。 やったことを下に箇条書きで書いていく。 ゆるゆり♪♪\298アッカリーン/ の過去ログを1まで辿りテキストを収集した。 htmlを解析して、発言のみを取り出した。 今回重要な当順人物の名前の辞書を作成した。 また、同時に表記のブレに対応するための辞書を作成した。 例: あかり あかり あかり アカリ あかり あかりん あかり あっかり〜ん あかり アッカリ〜ン MeCabを利用して、単語を切り出した。 その後、一つの発言毎に共起語を求めて、出現回数をカウントした。 単語毎にカウントの合計を求め、割合を求めた。 例: あかり ちなつ 2298 あかり 京子 1553 あかり 綾乃 1466 京子 綾乃 5022 京子 ちなつ 1910 京子 あかり 1728というデータがあったら、 あかり ちなつ 0.38191 あかり 京子 0.258102 あかり
日本語 WordNet 概要 * 詳細 * 画像 * 参考文献 * 関連プロジェクト * English ダウンロード 日本語 WordNet (1.0.) 最新版 56,741 概念 (synsets); 92,241 語; 157,398 語義 (synsetと単語のペア) 135,692 定義; 48,276 事例 (NEW!) License: For Japanese data: License (Like Princeton WordNet: similar to BSD) For English data: License Japanese Wordnet and English WordNet in an sqlite3 database Includes links to images (OCAL) and ontology (SUMO) Japanese Wordnet
日本語WordNetのデータベースを探索するフロントエンドプログラム - yanbe.diff - subtech を読んで使ってみようとしたが、Python 2.6 が手元のマシンに入っておらず、apt で探すもみつからず、絶望的な気分になり、Ruby で書き直してみた。 基本的にはそのまま。usage とかもコピペ。嵌まった点としては、Python では空のリストが偽であるということ*1。 #!/usr/bin/ruby -Ku # -*- coding: utf-8 -*- require 'rubygems' require 'sqlite3' class WNJpn Word = Struct.new("Word",:wordid, :lang, :lemma, :pron, :pos) Sense = Struct.new("Sense",:synset, :wordid, :
前回はFlesch Reading Ease、Flesch-Kincaid Grade Levelという、英語圏では有名な指標について述べました。これらは「読みさすさの評価指標」として、文章が持つ言葉の意味やレイアウトは捨てて、文章が持つ表面的な情報(言葉や構文の長さ)を用いた指標でした。 今回は以下の論文を参考に、読みさすさ評価指標・日本語版について考えてみようと思います。 建石由佳, 小野芳彦, 山田尚勇: "日本文の読みやすさの評価式", 情報処理学会研究報告ヒューマンコンピュータインタラクション, 1988-HI-018, 1-8(1988-05-09). この論文は日本語文章の読みやすさの評価式を検討したもので、読みやすさの要因を以下の4つとしています。 文の平均の長さ(文字数) 各文字種(英字、ひらがな、漢字、カタカナ)の連(同一文字種の文字の一続き)の相対頻度 文字種ごとの連
Microsoft Wordには、「文書の読みやすさをテストする」機能が備わっています。この機能をちょっと試してみました。 support.office.com 事前準備 【使用ソフトウェア】 MS Word 2003 MS Word 2010 【設定】 MS Word2003:「ツール」→「オプション」→「スペルチェックと文章校正」タブ→「メニュー、ツールバーから文章校正を行う」にチェック→「文書の読みやすさを評価する」にチェック。 MS Word 2010:「ファイル」タブ→「オプション」→「Wordのオプション」ダイアログボックス→「文章校正」→「文書の読みやすさを評価する」にチェック。 【利用コンテンツ】 今回は、Wikipedia(英語版)の「Book」に関するページを用いました。 【制約】 利用は冒頭の3段落のみです。 ”[1]” のような注釈は削除しています。 色/太字/斜体
※ユーザ登録は無料です. 本電子図書館のご利用にあたっては「情報処理学会電子図書館利用規約」をご遵守下さい。 情報学広場に掲載されているコンテンツには有料のものも含まれています。 有料コンテンツをご購入いただいた場合はクレジットカード決済のみとなります。 複写および転載をされる方へ一般社団法人情報処理学会では複写複製および転載複製に係る著作権を学術著作権協会に委託しています。当該利用をご希望の方は、学術著作権協会が提供している複製利用許諾システムもしくは転載許諾システムを通じて申請ください。 尚、本会会員(賛助会員含む)および著者が転載利用の申請をされる場合については、学術目的利用に限り、無償で転載利用いただくことが可能です。ただし、利用の際には予め申請いただくようお願い致します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く