ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW
Unlike Light’s older phones, the Light III sports a larger OLED display and an NFC chip to make way for future payment tools, as well as a camera.
薄っぺらすぎるコンテンツは、グーグルの検索結果から排除する ★★★★★ 重大ニュース (The Offcical Google Blog)すでに多くのサイトで触れられているが、非常に重要なニュースなのでこのコーナーでもピックアップする。 グーグルは、コンテンツスパムを排除するためのアルゴリズムを改良したことを明らかにした。コンテンツスパムの代表例にはコンテンツファームがあり、これは内容の薄っぺらい低品質のコンテンツばかりを掲載するサイトを指す。 具体的な改良点やコンテンツスパムの詳細をSEMリサーチの渡辺氏が解説しているので、詳しくはそちらを読んでいただきたい。渡辺氏の記事からポイントを引用しておくと、次のようなものになるだろう。 この新しい検出技術は、キーワードの繰り返しや自動生成コンテンツ、ブログコメントスパムなど、ウェブページ上で展開されるスパムの検出能力が向上している。また、201
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く