タグ

developmentとprogrammingに関するiizukawのブックマーク (2)

  • はてなブックマークの概要取得の処理 - naoyaのはてなダイアリー

    はてなブックマークが取得する概要は、文ではなく Feed から取得している よって、 Feed に含まれない範囲の過去の記事は概要が取得されない Feed を提供していてもそれから正しく概要を取得するとは限らない 簡単にまとめるとこのようなことになります。 ちょっと前に、遅まきながら MT のバージョンを 3.171 から 3.2-ja-2 にアップグレードした。したら、はてなブックマークにブックマークされた際に、記述している記事の概要(excerpt)が反映されなくなった。ちなみに、この <$MTEntryExcerpt$> を反映してくれない件に関しては真琴さん(hxxk.jp)が色々と調べていたんだけど、今んとこ一旦打ち切りという状態になっている。 ここのロジックが内部でどう実装されているかを明示していないのが理由で少々混乱を与えてしまっていて、申し訳ないです。現時点でどういう実装

    はてなブックマークの概要取得の処理 - naoyaのはてなダイアリー
  • zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた

    ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW

  • 1