タグ

2009年1月5日のブックマーク (4件)

  • WWWからの情報抽出

    1.はじめに 1・1 WWWと情報抽出 HTMLやXMLなどの半構造化文書から有用な知識を発見、抽出するためのWebマイニングの研究が注目を集めている。そしてWebマイニングの研究のひとつとして、Webページのコンテンツと構造を再構成し、新たな情報としてユーザに提供するための研究が行われている。これらの情報の再構成の鍵となる技術が、Webページから特定の箇所を自動的に抽出するための情報抽出である。 1・2 Webラッパー Webページからある特定の部分を抽出するためのぷろぐらむや、抽出するための場所を指示する文法はWebラッパーと呼ばれる。ラッパーで抽出した情報は関係データベースのレコードやXMLデータなど必要な形式に変換され、新たなサービスを提供するために用いられる。 1・3 Webラッパーの自動生成 Webラッパーが抽出の対象とするものはフィールド(例えば新聞記事といった限られたジャン

  • Introduction to Range

    This page gives an introduction to the Range objects. Using these, you can select any part of an HTML document and do something with this information. The most common Range is a user selection. This page concentrates on getting the user selection and converting this selection to a W3C Range or Microsoft Text Range object, although we'll treat the programmatic creation of Range objects, too. What i

  • 選択範囲のリンクを取得する: Days on the Moon

    Web ページの選択範囲に含まれるリンクを取得する方法として、Piro さんによる DOM 2 Range の compareBoundaryPoints メソッドを使ったやり方があります。これはリンクを探すのに DOM Core の機能を使って文書ツリーをたどっていますが、今現在ノードを探すといわれて真っ先に思いつくのは XPath でしょう。そこで、XPath を使って選択範囲のリンクを取得する方法を考えてみました。もちろん、選択範囲を扱う以上 DOM 2 Range も利用します。 基的な考え方 Range オブジェクトの取得 選択範囲の始点より前にあるリンクの数の取得 選択範囲の終点より前にあるリンクの取得 選択されているようには見えないリンクの除外 まとめ 基的な考え方 基的なアイデアは、選択範囲の終点より前にあるリンクで、選択範囲の始点より前にはないものが求めるリンクとい

  • DISQUS | Turn Blog Comments into a Webwide Discussion with a Powerful Comment System

    More publishers trust us to engage, grow, and understand their audiences than any other. Build your on-site community with Disqus.

    DISQUS | Turn Blog Comments into a Webwide Discussion with a Powerful Comment System
    masuidrive
    masuidrive 2009/01/05
    コメントサービス