HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど.
n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で,HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です.簡単な内容は以下のようになっています. コメント,スクリプト,スタイルを取り除きます. 文書が 1 行のみで構成されている場合,65 文字ずつに分割します.修正(2010-11-10) 各行に含まれるタグの割合(Ti)を求めます. タグの割合(Ti)を平滑化します(Ti'). Ti' における近傍との差(Gi)を求めます. Gi を平滑化します(Gi').
日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら
Кінець голоцену Більш обмежена істота не може панувати над істотою, що перевершує її інтелектом. Це здається очевидним, однак для людства це не так просто. Епоха, що наближається, змінена завдяки створенню штучного інтелекту, відіграє ключову роль у переписуванні історії виду Homo Sapiens, ставлячи під сумнів його домінування. Будь-які спроби зупинити прогрес у галузі штучного інтелекту здаються м
最近ちょっと興味があったZen-Codingがvimでも出来るというプラグインがあったので試してみた。 Zen-Codingってのはプログラマが使うエディタについてるスニペット入力みたいな感じでHTMLがサクサク書けるようになるライブラリ。スニペットのHTML特化版。 CSSセレクタのような記法なので普段からWebの開発に関わってる人なら簡単に体得できると思う。 単体のエディタではなくプラグイン形式になっていて色々なエディタやIDEで使えるというのもいいところ。詳しくは下記サイトを参照。 zen-coding - Set of plugins for HTML and CSS hi-speed coding http://code.google.com/p/zen-coding/ vimプラグインはこっち。 Sparkup http://github.com/rstacruz/sparku
話題のHTMLやCSSコーディングあしすとツールのzen-codingを触ってみました。すごい楽ちんこ! zen-codingって何?使い方は?という人は以下のページを見てくださいね。 Zen-Codingでできるあんなことこんなこと 知らない人は損してる?コーディングが3倍速くなるZen-Codingを導入してみた ある程度HTML/CSSのコーディングに慣れた人なら、ビジュアルデザインを含んだ文書があれば、それをもとに脳内でHTML構造に置き換えられますよね。デザインから興す人は、Photoshopを触りながら、同時に頭の中でHTMLを組み立ててる人も多いんじゃないでしょうか。 たいていの文書は、小さなパターンと大きなパターンの繰り返しだし、コンテンツに関しての試行錯誤はあっても、HTMLの記述で試行錯誤するってことは無いんですよね。(CSSのブラウザの実装の関係とかこの際忘れよう)
HTML::Template::Pro HTML::Template::Pro HTML::TemplateのXS版。HTML::Templateと比べて、10倍〜25倍早いらしい。mod_perlでも効果あるようだ。 HTML::Template::Pro loads, parse and outputs template on fly, when you call $tmpl->output(), in one pass. The corresponding code is written in C and glued to Perl using Perl+XS. As a result, comparing to HTML::Template in ordinary calls, it runs 10-25 times faster. Comparing to HTML::Templ
Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at
借金をしたときには、必ず返済しなければなりません。 多くの人がそのまま頑張って返さなければと考えがちですが、賢い借金返済方法を取ることでより楽に返せるようになるのです。
HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。 札幌市で賢い借金返済方法を教えます! 使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。例えば次のように指定します。 <ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>すると、html2regexpは、2つのa要素を抜き出す次の正規表現を生成します。 (<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)HTMLを抜き出して利用したり、Webアプリケーションのテストなどの
テーブルレイアウトとはテーブルタグを、左のようにセルを切ってレイアウトするもの。そもそもはテーブルタグは表に使われるものであって、レイアウト目的で使うべきではないという意見はごもっともなものの、きっちり幅指定や余白指定ができてブラウザ依存しにくいことから、企業サイトはもとよりいろいろなサイトに使われておりました。いや、今でも立派に使われています。 対してCSSレイアウトは、上と同じレイアウトをHTML(XHTML)+CSSで表現するもの。こんな感じです。記述は一例として適当に書いてるんで、アテにしたり突っ込みいれたりしないでくださいね(笑)。 【HTML】 <div id="header"> <h1>毎日考ブログ(ヘッダ部分)</h1> </div> <div id="main"> <div class="menu">メニュー部分</div> <div class="contents">本
Googleはonclickなアイテムにはhref="javascript:void(0)"も付けてくれることが多いあるのだが、このお陰で(少なくともFxなら)フォーカスを合わせることが出来る(フォーカス状態でEnterを押せばクリックと同じ動作になる)。対してLDRなどはonclick属性しか使用していないらしく、Tabキーでブラウジングしてる場合などに、フィードの一覧にどうやってもフォーカスが移らないため、とても残念な気持になる。 例えばspan要素などにonclick属性を付けてイベントを発生させている場合はこの方法は使えない(そもそもhref属性がない)ため、表面上のユーザビリティ的には、クリックイベントを取得する場合はa要素を使い、onclick属性と一緒にhrefも付けておくのがよいと言うことになる。 フォロー記事 フォーカスとjavascript:void(0)の話・2
[2006/5/28 追記] applet バージョンが公開されたので、自分のページのHTMLを可視化することもできるようになった。 論文にありそうなネタで、じつは同案多数かもしれないが, Websites as graphs では、HTML の構造を要素ごとに色分けしグラフ化する作業を著名ないくつかのサイトについて行なったという。下はグーグルのもので、 以下のような色分けになっているという。 青: リンク (A タグ) 赤: テーブル (TABLE, TR , TD タグ) 緑: DIV タグ 紫: 画像 ( IMG タグ) 黄色: フォーム (FORM, INPUT, TEXTAREA, SELECT OPTION タグ) オレンジ: 改行と引用 (BR, P, BLOCKQUOTE タグ) 黒: ルートである HTML タグ 灰: その他のタグ 元記事ではもっとたくさんの実例が出てい
授業中、生徒は課題制作で忙しく僕は用無し。ってことで、○○○をXHTML+CSSで組みなおすシリーズ(?)第二段を勝手にこっそり作ってた。 なるべく皆が知ってるサイトで、コーディングが楽しそうなサイトを探してたのだけど、なかなか決まらず、結局、生徒のリクエストでhatenaのトップページを組みなおす事にしました。 hatenaは一部レイアウトにテーブルを使っているものの、基本はCSSでの段組がされているので、mixiを組みなおすような大きな軽量化は出来そうにない。なので、楽しみ方としては、いかに無駄なマークアップを減らしてシンプルなXHTMLで同じ見栄えを再現するかだ。 これがまた、パズルで遊んでいるときの感覚に似ていてとっても楽しい。近い将来、CSSで1つの要素に複数の背景画像がおけるようになったとき、このパズル感が失われてしまうと思うと残念でならない。(半分ホンキ) で、帰ってきて手直
はてなブックマークをみていたら、気になるエントリーを発見。 [戯] target="_blank" を使わないで新しいウィンドウでリンクを開く方法 target="_blank"という書き方がXHTML 1.1 や XHTML Basicに準拠していないので、これらに準拠するようにしつつ、別ウィンドウで開くにはどうすればよいかという話です。 別ウィンドウで開くにはJavaScriptを使えってのが推奨される方法なんですが、onclickを使って定義するのはめんどうということで、この記事では、aタグにclass="popup"という属性を与えておけば、JavaScriptで別ウィンドウを開くということをしています。 この件については友人のHTML、CSSマスターなkawachi君と話したことがあって、そのときは、下のエントリで紹介されているrel="external"という方法を使うのがいい
なぜ自分が自分の形を留めていられるかというと、自分を知る誰かがいるから。 誰も自分を知らない場所へ旅するのもいい。そもそも誰一人いない場所を旅するのもいい。だが、いつかは放浪をやめてこの世界のどこかに落ち着かなければならない。さもないと人という存在と疎遠になり最後には自分自身にとってさえ他人になってしまう。 誰かを撮った写真は、近しい人間の心のなかでしか価値を持たないのと同じように、人の心も別の人間の心の中でしか価値を持たず、その人の思い出は、思い出したときにのみ存在するだけであって、思い出す人がいなくなれば、消え去るほかない。 人生は思い出だ、そして思い出が消えれば無になる。だから人は思い出を物語ろうとする―――コーマック・マッカーシーの『越境』を読んでいる間、そんな声が通底音のようにずっと響いていた。 マッカーシーの代表作ともいえる国境三部作(ボーダー・トリロジー)の第二作がこれだ。第
2001年〜2002年にかけて『WebSiteDesign』に、“HTMLに関して曖昧になりがちな部分が、仕様書ではどのように定義されているかを確認しながら、HTMLの理解を深めていく”ことを目指したしたシリーズ「仕様書に見るHTML」を掲載しました。その原稿を、基本的にそのままウェブ版として公開します。 HTMLの仕様書は、分量こそ多いものの、内容は丁寧にわかりやすく書かれており、けっして難しいものではありません。企画書のいくつかの部分を拾い読みすることで、そのスタイルに慣れ、解説書を鵜呑みにするのではなく自力で不明点を調べられるようになる、その手助けになればいいなと考えています。 HTMLの基本構造 ハイパーテキストとリンク プレゼンテーションとマルチメディア フォームとインタラクション ちょっと不思議なテキストレベルの要素タイプ ごく簡単なHTMLの説明
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く