タグ

htmlに関するmizukikのブックマーク (2)

  • MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介

    ブログやサイト内の文字列を扱うサービスの中で、HTML中における文を抽出するというのは重要な課題だ。ライブラリ化したものや、クローラとして提供されるものなど様々な形態が存在する。 そんな中、サイボウズの提供するサービス「パストラック」で利用されているその文抽出モジュールはオープンソースとして公開されている。 今回紹介するオープンソース・ソフトウェアはExtractcontent、Rubyによる文抽出モジュールだ。 Extractcontentは一つのRubyスクリプトからできている。読み込むだけで使えるので、Rails等に組み込むのも簡単だ。HTML全体を渡すと、タイトルと文を同時に取り出してくれる。 パラメータは細かく存在し、それを変更する事で性能を変更できる。が、まずデフォルトのままで大丈夫だろう。 ライブラリだけで文抽出ができるという手軽さが良い。ブログを使ったテキストサー

    MOONGIFT: HTMLから本文抽出「Extractcontent」:オープンソースを毎日紹介
  • JavaScript/HTML5, iPhone/Android, ハイビジョン映像, 自動化関連:[OpenSpace]

    Web関連およびアプリケーション、映像関係、静止画素材、自動処理、4K/8K/ハイビジョン素材関連などを扱っています。 誤字脱字等、お気づきの点がありましたら、お気軽にメールをください。 この目次にないアプリケーション等の使い方などに関してはその他のリファレンス/アプリケーション...のページを参照してください。

  • 1