[B! datamining][Internet] tsupoのブックマーク

tsupo id:tsupo

dataminingとInternetに関するtsupoのブックマーク (5)

http://japan.internet.com/webtech/20081204/7.html
tsupo 2008/12/04
Blog などに書かれた経験情報を分析する技術 / デモサービス「みんなの経験」 / 一般ユーザーは第三者の体験談を発見することができ、企業は、CGM 上で自社や競合他社の商品への意見や自社ブランドファンの経験情報を発見できるようになる

dataMining

経験

自然言語処理

Internet

summarySite
リンク
ちょっとしたメモ - GRDDLがW3C勧告に
XHTMLなどからRDFグラフを抽出するGRDDLがW3C勧告となった。最初の草案が昨年10月下旬に出てから1年未満、GRDDL作業部会が設置された昨年6月から数えても15ヶ月と、最近のW3C規格の中では異例のスピードだ。現在のXHTMLとして完全に妥当な文書にRDF互換データを埋め込むことができ、使い方も分かりやすい。普及することを願うばかりだ。 HTML文書内にRDFメタデータを埋め込むという考えは、最初のRDFが1997年に勧告されたときから話題になっており、さまざまなアイデアが出されてきた。当初はXHTMLの中にRDF/XMLをそのまま記述するにはどうするか、いや、やはり妥当性検証ができないから外部RDF/XML文書にリンクすべきだ、といった議論が続いていたが、「どっちみち人間が読むための文書は作るんだから、そこからマシン用のデータを抽出するのがいいよね」という現実的な考えが出てく
tsupo 2007/09/13
GRDDLの考え方は、class属性やrel属性を一貫して用いて、その意味をXSLTなどでRDFに変換しようというもの / XHTMLのprofile属性を指定するだけでOK

GRDDL

XML

XHTML

RDF

W3C勧告

dataMining

Internet

computer
リンク
MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
これはやばい！凄すぎる。現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた（考えていただけ）方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。特徴的なのは、特定の言語に左右される
tsupo 2007/09/04
紹介されてる Webstemmer のサイト(http://www.unixuser.org/~euske/python/webstemmer/index-j.html)、404 になってるよ＞＜

webstemmer

scraping

python

datamining

テキスト抽出

Internet

summarySite
リンク
[ThinkIT] 第5回：セマンティックWebの将来 (1/3)
セマンティックWebは、今のインターネット世界（Web 2.0の世界）における恣意的に入力されたデータや異なるメタデータの統合を容易にする技術として、そしてエンタープライズ世界では従来の統合技術／統合製品で解決できなかった問題を解決する技術として、それぞれ有望であることを解説してきた。最終回となる今回は「セマンティックWebの将来」と題し、コンシューマ世界ではWeb 2.0、エンタープライズ世界ではSOA（Service Oriented Architecture：サービス指向アーキテクチャ）を中心に、セマンティックWebがどのように関わり、発展していくかを解説する。 Web 2.0世界におけるセマンティックWebについては、「第2回：Web 2.0世界におけるセマンティックWeb」で「タギング／フォークソノミー、マイクロフォーマット」という具体的な例を題材に解説した。だが、Web 2.
tsupo 2006/10/02
消費者を深く知るための顧客属性情報（デモグラフィック）、消費者の心理的な嗜好（サイコグラフィック）、地理的な要因（ジオグラフィック）

semanticWeb

web2.0

SOA

分析

database

dataMining

Internet

business
リンク
Demographics Prediction: Audience Intelligence: adCenter Labs
This tool predicts a user's age, gender, and other demographic information, based on their online behavior, such as what queries they search online and what web sites they visit. It lets merchants learn more about their customers before bidding for keywords. Type a query or a Web address (URL), select Query or URL, and then click Go. Query examples: real estate, dodge caravan, dodge pickup, xbox
tsupo 2006/08/15
おもしろい

microsoft

searchEngine

dataMining

accessAnalysis

Internet

computer
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx