ni66lingのブックマーク / 2013年10月20日 - はてなブックマーク

ni66ling id:ni66ling

2013年10月20日のブックマーク (17件)

http://www.machu.jp/posts/20130112/p01/
ni66ling 2013/10/20
tmux

キーバインド
リンク
第15回　テキスト情報の抽出［その2］ | gihyo.jp
前回は、テキストファイルとHTMLファイルからテキスト情報を抽出する方法について解説しました。今回はMicrosoft Word等に代表されるアプリケーション固有の文書ファイルからテキスト情報を抽出する方法についてとりあげます。アプリケーション固有の文書ファイル型式世の中のアプリケーションの多くは、それぞれ固有のファイル型式で情報を保存しています。たとえば、Microsoft Wordは拡張子.docや.docxのファイル型式、Adobe Acrobatは拡張子.pdfのファイル型式という具合です。そして、各アプリケーションの固有のファイル型式仕様は、オープンになっているものもあれば、アプリケーションベンダがまったく公開していないものもあります。仕様がオープンになっている文書ファイル型式のファイルからテキスト情報を抽出するには、公開仕様に基づいて文書ファイルを解析し、ファイルの中から
ni66ling 2013/10/20
microsoft

office

バイナリファイル

doc

xls

pdf

nlp

テキスト抽出

spotlight
リンク
pyPdf
Out of date! This page is no longer updated. Development and maintenance of this project has continued and you can find the most recent information here: https://pypi.org/project/pypdf/. About A Pure-Python library built as a PDF toolkit. It is capable of: extracting document information (title, author, ...), splitting documents page by page, merging documents page by page, cropping pages, merging
ni66ling 2013/10/20
python

pdf

library
リンク
Rユーザ会で「RではじめるTwitter解析」を発表してきました - あらびき日記
この記事は abicky.net の Rユーザ会で「RではじめるTwitter解析」を発表してきましたに移行しました
ni66ling 2013/10/20
twitter

NLP

R
リンク
Latent Dirichlet Allocations の Python 実装 - 木曜不足
LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ？」という人のほうが多そうｗ。各単語が「隠れトピック」(話題、カテゴリー)から生成されている、と想定して、そのトピックを文書集合から教師無しで推定することができる。特徴は、果物の apple と音楽の apple とコンピュータ関連の apple を区別することが出来る(ことが期待される)という点。そのために、どのトピックを生成しやすいかという分布を各文章も持つ。細かい話は略。結果の見方としては、定量的にはパープレキシティを見るし(一般に小さいほどいい)、定性的には各トピックがどのような単語を生成するか、その確率上位のものを見てふむふむする。この「各トピックが生成する単語」
ni66ling 2013/10/20
LDA

NLP

python

実装

中谷秀洋
リンク
Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記
この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました
ni66ling 2013/10/20
LDA

NLP

平均場近似
リンク
ディリクレ分布まとめ - あらびき日記
この記事は abicky.net のディリクレ分布まとめに移行しました
ni66ling 2013/10/20
ディリクレ分布

LDA

NLP
リンク
R による文書分類入門
This document discusses analyzing text data from Japanese language transcripts of talks in R. It shows tokenizing the Japanese text into words using the MeCab library and creating bigram features by grouping the tokenized words into pairs. Some key steps include: 1. Tokenizing the Japanese transcripts into words and part-of-speech tags using RMeCabDF(). 2. Creating a tokens dataframe with title, w
ni66ling 2013/10/20
slideshare

R

分類

ナイーブベイズ

RMeCab

スパース行列

CART

最大エントロピー

ME

SVM
リンク
言語と計算 (4) 確率的言語モデル
ni66ling 2013/10/20
Amazon

本

nlp
リンク
単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや？ - あらびき日記
この記事は abicky.net の単純グッド・チューリング推定法 (Simple Good-Turing Estimation) とは何ぞや？に移行しました
ni66ling 2013/10/20
ナイーブベイズ

単純グッド・チューリ

スムージング

ディスカウンティング

ゼロ頻度問題

加算法

NLP

R
リンク
潜在的意味インデキシング（LSI）徹底入門 - あらびき日記
この記事は abicky.net の潜在的意味インデキシング（LSI）徹底入門に移行しました
ni66ling 2013/10/20
LSI

NLP

LSA
リンク
Python,NLTKで自然言語処理 - haya14busa
Install nltk $ pip install nltk wordnetのコーパスをPythonインタプリタからダウンロード $ python Python 2.7.5 (default, Jul 19 2013, 19:37:30) [GCC 4.2.1 Compatible Apple LLVM 4.2 (clang-425.0.28)] on darwin Type "help", "copyright", "credits" or "license" for more information. >>> import nltk >>> nltk.download() MacならGUIの画面が起動するので適当に従ってダウンロード。書き終わってから気づいたけど以下ナチュラルにsee()使ってます。代わりにdir()使うか、そもそも飛ばすか、便利なのでseeをインストールしましょう
ni66ling 2013/10/20
NLTK

stemming

lemmatize

見出し語化

ステミング

NLP
リンク
https://www.ism.ac.jp/~daichi/paper/nc2006bayes.pdf
ni66ling 2013/10/20
LDA

持橋大地

チュートリアル

pdf

NLP
リンク
Latent Dirichlet allocation - Wikipedia
In natural language processing, latent Dirichlet allocation (LDA) is a Bayesian network (and, therefore, a generative statistical model) for modeling automatically extracted topics in textual corpora. The LDA is an example of a Bayesian topic model. In this, observations (e.g., words) are collected into documents, and each word's presence is attributable to one of the document's topics. Each docum
ni66ling 2013/10/20
LDA

wikipedia
リンク
Wikipedia-Lab
Wikipedia研究所は、Wikipediaのダイナミクスの解析やコンテンツ解析を行う研究グループです。このWebサイトでは、Wikipediaマイニング研究のためのリソースを配信していく予定です。これからWikipedia研究を始める方の情報共有の場になれば幸いです。人工知能学会の近未来チャレンジにて，サバイバルが決定しました！詳しくは近未来チャレンジのページを御覧ください． Wikipedia APIがJavaに対応しました．第一回Wikipediaワークショップを開催します！ Silverlight 2で開発したWikipediaシソーラスの可視化プログラムを公開しました．新しいアプローチでのWikipediaシソーラスの構築方法に関する論文がCIKM 2008にて採録されました． Wikimania 2008にWikipediaマイニングに関する論文が採録されました．
ni66ling 2013/10/20
wikipedia

研究

NLP
リンク
上位下位関係抽出ツール Version1.0: Hyponymy extraction tool
上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次上位下位関係抽出ツールとは新着情報注意事項ダウンロード動作環境実行機械学習用モデルファイル実行結果オプション引数ディレクトリ構成実行コマンド入力例抽出上位下位関係数参考文献 Copyright 上位下位関係抽出ツールとは上位下位関係抽出ツールは，Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです．上位下位関係とは，"XはYの一種(一つ)である"と言えるXとYの関係を言います． Xのことを下位語，Yのことを上位語と呼びます．別の言い方をしますと，上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例）」の関係を持つ語の対となります．抽出できる上位下位関係の
ni66ling 2013/10/20
wikipedia

シソーラス

NLP
リンク
テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
WindowsでMeCab Pythonを使う（2010/11/21）のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。（Wikipedia『人工知能』を改変）という文章をMeCabで形態素解析して名詞のみ取り出すと、人工知能コンピュータ人間同様知能実現試みため一連基礎技術人工知能名前 1956 年ダートマス会議ジョンマッカーシー
ni66ling 2013/10/20
wikipedia

MeCab

辞書

NLP
リンク
- 2013年10月21日
- 2013年10月20日
- 2013年10月19日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx