タグ

htmlに関するalfaladioのブックマーク (5)

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • Ruby Scraping - FrontPage

    RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 HpricotHTMLを「Rubyらしく」扱うライブラリ MechanizeWebサイトへ自動でアクセスするためのライブラリ scRUBYt!DSLを使って簡単にスクレイピングを行うライブラリ feedalizerhtmlからRSSフィードを作るのに役立つライブラリ scrAPIパーサを定義することでHTMLを解析するライブラリ ウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る) ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。 例: RSSを配信していないウェブサイトのHTMLスクレイピングして野良RSSを作る Googleの検索結果をスクレイピングして自動でGoogle検索するスクリプトを書く ブログの投稿ページを解析して、コマンドラインから

  • HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記

    以前からCPANで公開していたモジュールがあるんですが、日語での解説ドキュメントがなかったのと、最近大幅にブラッシュアップしたので、せっかくなので紹介記事を書きます。 HTML::Feature - Extract Feature Sentences From HTML Documents 「えいちてぃえむえる::ふぃーちゃー」と読みます。 ブログやニュース記事など様々なHTML文書から「重要部分」を推測して抽出してくれる perl モジュールです。 「重要部分」とはいわゆる「文」のことですね。文抽出とか焦点抽出とか色々な言い方があるかと思いますが、まぁ要するに特徴的な部分を推測して抽出するわけです。 どういうものか。 例えばブログ記事からヘッダーやフッター、その他のナビゲーションブロックを除いた「記事らしき部分」だけを切り取りたい、とします。 ぱっと思いつくのは「特定のコメントタグ

    HTML::Feature - 重要部分を抽出するモジュール - - ダウンロードたけし(寅年)の日記
  • 検索結果で有利になる知られざるHTMLタグ5種類 - GIGAZINE

    よく知られているように現在のウェブ検索のメインストリームをしめるロボット型検索は、回収したページのHTMLタグを解釈して意味を与え、重要度を判定し、検索結果に反映させます。 例えばタイトルに使われるH1などのタグはより重要な文字列と見なしますし、リンクタグに「rel=nofollow」が入っていればページランクなどの計算でポイント付与評価を無視するようになります。 しかしそれ以外にも数々のSEO業者が調べたり実験してきた結果、より有効に解釈されると判断されるがあまり知られていない5種類のタグが存在します。 以下がその5つのタグです。 SEOmoz Blog | 5 HTML elements you probably never use (but perhaps should) 1.addressタグ 住所、電話番号などの連絡先を示すためのものです。電子メールアドレスやメッセンジャーの情報

    検索結果で有利になる知られざるHTMLタグ5種類 - GIGAZINE
  • 700個以上の無料で使えるアイコン「Silk Icons」

    サイトをデザインする際や、ソフトウェアのツールバーなどにも利用可能。いろいろな種類のアイコンがあるので、とりあえず持っておけばいつか役立つことは確実。 含まれている全種類のアイコンのプレビューは以下の通り。 famfamfam.com: Silk Icons Preview http://www.famfamfam.com/lab/icons/silk/preview.php ダウンロードは下記から。 famfamfam.com: Silk Icons http://www.famfamfam.com/lab/icons/silk/ ほかにもこのサイトには無料で利用できるアイコンがあります。 famfamfam.com: Mini Icons http://www.famfamfam.com/lab/icons/mini/ famfamfam.com: Flag Icons http://

    700個以上の無料で使えるアイコン「Silk Icons」
  • 1