f-sugerのブックマーク / 2011年1月29日

f-suger id:f-suger

2011年1月29日のブックマーク (6件)

TechCrunch Japanese アーカイブ » Dapper利用で自分のNetvibesモジュールを作ろう
f-suger 2011/01/29
Dapper

サービス

モジュール

netvibes
リンク
RSS配信のないホームページからRSS受信をする。
RSS配信はブログの配信と不可欠のものとなっています。しかし一般ユーザーの認知度はイマイチです。今回はRSS配信に対応していないHPからRSS配信を行う方法をご紹介します。 ■まず対象のHPのURLをコピーしておきます。 ■以下ページを開き、先ほどのURLを貼り付けします。・page2rss http://page2rss.com/ ■RSS情報が吐き出されます。 ■右側の『RSS2.0』をクリックするとそのままRSSリーダーに登録可能です。 ■Firefoxプラグインの『sage』というRSSリーダーを通してみると、以下のように配信されています。
f-suger 2011/01/29
RSS

hacks
リンク
zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW
f-suger 2011/01/29
ブログ

本文抽出

アルゴリズム
リンク
PHPでブログの記事本文抽出サンプル:phpspot開発日誌
zuzara.com 実ブログの記事本文を抽出するスクリプトをつくってみたブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。 PHPでブログの記事本文抽出サンプル。ブログの記事部分の抽出ってどうやるんだろう？って思っていた人は多いんではないでしょうか。抽出成功確立は８０％ということらしいですが、ルーチンを改善することでもっと高められそうですね。ブログを処理して何かやりたいと思っていた人には有益なサンプルとなりますね。
f-suger 2011/01/29
ブログ

本文抽出

php
リンク
TechCrunch | Startup and Technology News
Unlike Light’s older phones, the Light III sports a larger OLED display and an NFC chip to make way for future payment tools, as well as a camera.
f-suger 2011/01/29
映画

webサービス
リンク
薄っぺらすぎるコンテンツは、グーグルの検索結果から排除するなど10+2記事（海外&国内SEO情報） | 海外&国内SEO情報ウォッチ
薄っぺらすぎるコンテンツは、グーグルの検索結果から排除する ★★★★★ 重大ニュース（The Offcical Google Blog）すでに多くのサイトで触れられているが、非常に重要なニュースなのでこのコーナーでもピックアップする。グーグルは、コンテンツスパムを排除するためのアルゴリズムを改良したことを明らかにした。コンテンツスパムの代表例にはコンテンツファームがあり、これは内容の薄っぺらい低品質のコンテンツばかりを掲載するサイトを指す。具体的な改良点やコンテンツスパムの詳細をSEMリサーチの渡辺氏が解説しているので、詳しくはそちらを読んでいただきたい。渡辺氏の記事からポイントを引用しておくと、次のようなものになるだろう。この新しい検出技術は、キーワードの繰り返しや自動生成コンテンツ、ブログコメントスパムなど、ウェブページ上で展開されるスパムの検出能力が向上している。また、201
f-suger 2011/01/29
SEO

google
リンク
- 2011年2月2日
- 2011年1月29日
- 2011年1月26日