ドットインストール代表のライフハックブログ
ブログやサイト内の文字列を扱うサービスの中で、HTML中における本文を抽出するというのは重要な課題だ。ライブラリ化したものや、クローラとして提供されるものなど様々な形態が存在する。 そんな中、サイボウズの提供するサービス「パストラック」で利用されているその本文抽出モジュールはオープンソースとして公開されている。 今回紹介するオープンソース・ソフトウェアはExtractcontent、Rubyによる本文抽出モジュールだ。 Extractcontentは一つのRubyスクリプトからできている。読み込むだけで使えるので、Rails等に組み込むのも簡単だ。HTML全体を渡すと、タイトルと本文を同時に取り出してくれる。 パラメータは細かく存在し、それを変更する事で性能を変更できる。が、まずデフォルトのままで大丈夫だろう。 ライブラリだけで本文抽出ができるという手軽さが良い。ブログを使ったテキストサー
オプションが多すぎて逆に使いにくいのでは・・・という懸念はあるものの、機能の豊富さでは他の追随を許さない最強テストツールのご紹介。 HTMLの検証、SEOツール、ドメイン関連ツールなどなど、8つのカテゴリー、128にわたる診断ツールを提供しています。 あなたのサイト、クライアントのサイトを徹底検証してみればいままで気づかなかった改善ポイントが洗いだせるのかもしれません。 以下に使い方をご紹介。 ↑ まずはURLを指定。 ↑ 次に診断ツールを選択します。カテゴリーごとに数ページにわたるオプションがあります。 ↑ 選択したツールで診断した結果はこちら。 ↑ 診断結果ページのすべてをフレームで表示することも可能です。 要は診断ツールへのリンク集ですが、一気に調べられるインターフェースが便利ですよね。 ご利用は無料です。よろしければ以下からどうぞ。 » test everything — 100+
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く