[B! テキストマイニング] kupoyukiのブックマーク

kupoyuki id:kupoyuki

テキストマイニングに関するkupoyukiのブックマーク (5)

https://www.jnlp.org/
kupoyuki 2017/06/23
自然言語処理

テキストマイニング

研究

論文
リンク
専門用語（キーワード）自動抽出サービス「言選Web」
このページでは文章中から専門用語（キーワード）を切り出すことができます。文章中から厳選された言葉を選んでくれますからその名の通りゲンセンWebなのです！このシステムは専門用語自動抽出用Perlモジュール"TermExtract"の機能を、Web上で提供するものです。ただしスタンドアロン版と比べて利用できる機能に制限があります。次のいずれかで専門用語（キーワード）を切り出すデータを指定します。 Web上のhtml化された文章もしくはPDFをURLで指定文章を直接入力するか貼り付ける Windows上のテキストファイル、もしくはPDFを指定入力ボックス下のチェックボックスから和文、英文を選択。専門用語（キーワード）抽出ボタンをクリックしばらくすると専門用語（キーワード）が重要度の高い順に表示される。 ●URL指定は右の欄へ ●文章を入力もしくは貼り付けてる場合は下の欄へ ●お使いの
kupoyuki 2017/06/23
自然言語処理

テキストマイニング

Webサービス

形態素解析
リンク
簡単だけどとっても重要な計学の話
ランダムサンプリング（random sampling: 無作為標本抽出）とは被験者をある母集団からランダム（無作為）に抽出（サンプリング）するということを意味しており，ランダム割付とは被験者を各要因・各水準に割り当てる操作である。例えば，宮教大の学生（母集団）の生活実態を調べたいときに，全員を調べ上げる（全数調査）ことは大変なので，宮教大の学生の中から無作為に被調査者を選ぶような手法（標本調査）がランダムサンプリングとなっている。ただし，調査目的が日本の大学生（母集団）の生活実態調査であるならば，上記の標本データより示された結果には一般的妥当性の問題が生じる可能性もある（キーワード：世界，母集団，標本）。このような場合は，ランダムサンプリングではなく便宜的なサンプリングと呼ぶべきである。近代統計学の基本的な考えは，母集団と標本を区別することにあるといわれている。標本にもとづいて計算
kupoyuki 2017/06/23
統計・グラフ

論文

テキストマイニング
リンク
TTM: TinyTextMiner β version
はじめに TTMはテキストマイニングの前処理のためのフリーウェアです。CSV形式の「タグ付きテキスト」を読み込んで6種類の集計データを作成します。日本語と英語に対応しています。Windows版とMac OSX版があります。最新版はバージョン v0.86 (for Win, Win10まで対応)、v0.89 (for Mac, macOS Mojaveまで対応) です。また、Microsoft Excel上で動くExcelTTMもリリースしました。Excelに慣れ親しんだ方にはこちらの方が使い勝手がよいかもしれません。出力結果は同じですので、お好きな方をお使いください。インストール for Win 以下の3つのソフトウェアをインストールします。構文解析を行わないときはCaboChaのインストールは不要です。英文テキストを解析する場合はMeCabとCaboChaのインストールは不要です。
kupoyuki 2017/06/23
テキストマイニング

MeCab

自然言語処理
リンク
Polaris -
Sorry, this page is written only in Japanese. Please contact me if you would like English information/translation of the software. データマイニングでは，外界で観測された現象をキーワード（シンボル）や数値に変換し，そのデータをコンピュータに与えます．コンピュータは，与えられたデータがどのような性質を持つのか計算し，データの中に埋もれている特徴的な事象を見出します．あたかもコンピュータが「この事象は興味深いなぁ」とデータに共感してユーザに結果を返しているように思えますが，そういう訳ではありません．現在のコンピュータは与えられたシンボルの意味や数値の大小の意味を理解することができません．例えば，「顔が白い」というパターンがマイニングで得られたとき，「顔」「白色」の
kupoyuki 2017/06/23
データマイニング

テキストマイニング

自然言語処理
リンク
1