[B! mining] knobmituのブックマーク

knobmitu id:knobmitu

miningに関するknobmituのブックマーク (4)

Webマイニングと情報論的学習理論
社会を止めない。暮らしを止めない。海底から宇宙まで、NECは技術と信頼でミッションクリティカルを支えています。
knobmitu 2008/02/19
pdf

mining
リンク
Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
knobmitu 2007/10/12
crawl

crawler

html

mining

news

programming

python

software
リンク
Web内容マイニング
Web内容マイニング（NECインターネットシステム研究所　楠村幸貴） Web上には膨大の情報が存在している．そこでWebを巨大な知識ベースと捉え，Webから有用な知識を取り出す情報抽出技術の研究が行われている．この技術はWeb内容マイニングとも呼ばれており，複数のサイトをまとめて提示する情報統合システム[1][2]や，ブログからの評判抽出システム[3][4][5]，コミュニティサイトからの人間関係の抽出システム[6]など，近年多くの研究が行われているトピックとなっている．そこで本ブックマークではこれらのWeb内容マイニング技術を取り上げたい． [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa
knobmitu 2007/10/11
mining

web

java
リンク
[ThinkIT] 第3回：テキストマイニング技術の全貌 (1/3)
第3回の今回は、これまでとは話の内容を転換して、テキストマイニングの技術的な内容について言及していきたい。テキストマイニングを支える技術には、「自然言語処理技術」と「データマイニング技術」がある。実は自然文のテキストデータは、そのままの状態では分析することができない。そのため、「自然言語処理技術」の形態素解析や構文解析といった処理を行い、単語の出現の有無などを表現するために定量的なデータに変換する。「データマイニング技術」としては、同時に出現する単語間の関連性を見る「アソシエーション分析」、テキスト間の類似性からグループ化するのに利用される「クラスター分析」などがある。では実際に、野村総合研究所（NRI）が自社開発したテキストマイニングツール「TRUE TELLER」における処理を参考にして、具体的なテキストデータ処理の流れを見ていこう。まず、図1のチャートを見ていただきたい。ここ
knobmitu 2007/02/26
mining

textmining
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx