タグ

htmlに関するoverlastのブックマーク (20)

  • Yusuke Nojima on Twitter: "HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど."

    HTML文書からの文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど.

    Yusuke Nojima on Twitter: "HTML文書からの本文抽出は「句読点(。、.,!?)の密度が高い部分」を取ってくるだけでそこそこ精度が出てしまうことを知ってちょっとがっかり.いや,精度でるんだからいいんだけど."
    overlast
    overlast 2013/12/19
    研究なら大雑把に取れれば十分だもんねー
  • CETR による HTML 文書からのテキスト抽出 - やた@はてな日記

    n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で,HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です.簡単な内容は以下のようになっています. コメント,スクリプト,スタイルを取り除きます. 文書が 1 行のみで構成されている場合,65 文字ずつに分割します.修正(2010-11-10) 各行に含まれるタグの割合(Ti)を求めます. タグの割合(Ti)を平滑化します(Ti'). Ti' における近傍との差(Gi)を求めます. Gi を平滑化します(Gi').

    CETR による HTML 文書からのテキスト抽出 - やた@はてな日記
  • HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記

    語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら

    HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記
  • Roman Gelembjuk. Personal blog

    Кінець голоцену Більш обмежена істота не може панувати над істотою, що перевершує її інтелектом. Це здається очевидним, однак для людства це не так просто. Епоха, що наближається, змінена завдяки створенню штучного інтелекту, відіграє ключову роль у переписуванні історії виду Homo Sapiens, ставлячи під сумнів його домінування. Будь-які спроби зупинити прогрес у галузі штучного інтелекту здаються м

    Roman Gelembjuk. Personal blog
  • Zen-Codingが楽しい - ぱせらんメモ

    最近ちょっと興味があったZen-Codingがvimでも出来るというプラグインがあったので試してみた。 Zen-Codingってのはプログラマが使うエディタについてるスニペット入力みたいな感じでHTMLがサクサク書けるようになるライブラリ。スニペットのHTML特化版。 CSSセレクタのような記法なので普段からWebの開発に関わってる人なら簡単に体得できると思う。 単体のエディタではなくプラグイン形式になっていて色々なエディタやIDEで使えるというのもいいところ。詳しくは下記サイトを参照。 zen-coding - Set of plugins for HTML and CSS hi-speed coding http://code.google.com/p/zen-coding/ vimプラグインはこっち。 Sparkup http://github.com/rstacruz/sparku

    Zen-Codingが楽しい - ぱせらんメモ
  • Zen-Codingで楽々コーディング! + コツ1つ

    話題のHTMLCSSコーディングあしすとツールのzen-codingを触ってみました。すごい楽ちんこ! zen-codingって何?使い方は?という人は以下のページを見てくださいね。 Zen-Codingでできるあんなことこんなこと 知らない人は損してる?コーディングが3倍速くなるZen-Codingを導入してみた ある程度HTML/CSSのコーディングに慣れた人なら、ビジュアルデザインを含んだ文書があれば、それをもとに脳内でHTML構造に置き換えられますよね。デザインから興す人は、Photoshopを触りながら、同時に頭の中でHTMLを組み立ててる人も多いんじゃないでしょうか。 たいていの文書は、小さなパターンと大きなパターンの繰り返しだし、コンテンツに関しての試行錯誤はあっても、HTMLの記述で試行錯誤するってことは無いんですよね。(CSSのブラウザの実装の関係とかこの際忘れよう)

  • HTML::Template::Pro : blog.nomadscafe.jp

    HTML::Template::Pro HTML::Template::Pro HTML::TemplateのXS版。HTML::Templateと比べて、10倍〜25倍早いらしい。mod_perlでも効果あるようだ。 HTML::Template::Pro loads, parse and outputs template on fly, when you call $tmpl->output(), in one pass. The corresponding code is written in C and glued to Perl using Perl+XS. As a result, comparing to HTML::Template in ordinary calls, it runs 10-25 times faster. Comparing to HTML::Templ

  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

  • html2regexp - html2regexpはHTML要素を抽出する正規表現を自動生成するツール

    借金をしたときには、必ず返済しなければなりません。 多くの人がそのまま頑張って返さなければと考えがちですが、賢い借金返済方法を取ることでより楽に返せるようになるのです。

  • HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記

    HTML要素を抜き出す正規表現を自動生成するプログラム html2regexp を作ったので公開します。 札幌市で賢い借金返済方法を教えます! 使い方は簡単で、HTMLファイル中の抜き出したいHTML要素の先頭タグの末尾にh2rと書き加えるだけです。例えば次のように指定します。 <ul> <li><a href="hoge" class="h" h2r>hoge</a></li> <li><a href="huga" class="h" h2r>huga</a></li> </ul> <div> <a href="f">f</a> </div>すると、html2regexpは、2つのa要素を抜き出す次の正規表現を生成します。 (<(\w*?)\s*([^>]*?" class="h"[^>]*?)>(.*?)<\/\2>)HTMLを抜き出して利用したり、Webアプリケーションのテストなどの

    HTML要素を抜き出す正規表現の自動生成プログラム - llameradaの日記
  • 2006/10/08 - memo - unknownplace.org

    $ perl -MDBIx::Class\ 999 DBIx::Class version 999 required--this is only version 0.07002. BEGIN failed--compilation aborted. なるほど、こうすれば手軽にモジュールのバージョンを得られるのか。(バージョン指定のuse) 自分の使ってるマシンではaliasでモジュールのバージョンを求めるの設定してるのでいらないけど、そうじゃないところで使うのによさそう。

  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 毎日考ブログ -Web屋のウェブログ- | Web標準に進路を取れ 第5回「テーブルレイアウトは罪なのか」

    テーブルレイアウトとはテーブルタグを、左のようにセルを切ってレイアウトするもの。そもそもはテーブルタグは表に使われるものであって、レイアウト目的で使うべきではないという意見はごもっともなものの、きっちり幅指定や余白指定ができてブラウザ依存しにくいことから、企業サイトはもとよりいろいろなサイトに使われておりました。いや、今でも立派に使われています。 対してCSSレイアウトは、上と同じレイアウトをHTML(XHTML)+CSSで表現するもの。こんな感じです。記述は一例として適当に書いてるんで、アテにしたり突っ込みいれたりしないでくださいね(笑)。 【HTML】 <div id="header"> <h1>毎日考ブログ(ヘッダ部分)</h1> </div> <div id="main"> <div class="menu">メニュー部分</div> <div class="contents">

  • Googleがonclickにはhref=&#34;javascript:void(0)&#34;も付ける理由?

    Googleはonclickなアイテムにはhref="javascript:void(0)"も付けてくれることが多いあるのだが、このお陰で(少なくともFxなら)フォーカスを合わせることが出来る(フォーカス状態でEnterを押せばクリックと同じ動作になる)。対してLDRなどはonclick属性しか使用していないらしく、Tabキーでブラウジングしてる場合などに、フィードの一覧にどうやってもフォーカスが移らないため、とても残念な気持になる。 例えばspan要素などにonclick属性を付けてイベントを発生させている場合はこの方法は使えない(そもそもhref属性がない)ため、表面上のユーザビリティ的には、クリックイベントを取得する場合はa要素を使い、onclick属性と一緒にhrefも付けておくのがよいと言うことになる。 フォロー記事 フォーカスとjavascript:void(0)の話・2

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
    overlast
    overlast 2006/06/04
    htmlを修正してくれるjavaプログラム
  • HTML構造のグラフによる可視化 | 秋元@サイボウズラボ・プログラマー・ブログ

    [2006/5/28 追記] applet バージョンが公開されたので、自分のページのHTMLを可視化することもできるようになった。 論文にありそうなネタで、じつは同案多数かもしれないが, Websites as graphs では、HTML の構造を要素ごとに色分けしグラフ化する作業を著名ないくつかのサイトについて行なったという。下はグーグルのもので、 以下のような色分けになっているという。 青: リンク (A タグ) 赤: テーブル (TABLE, TR , TD タグ) 緑: DIV タグ 紫: 画像 ( IMG タグ) 黄色: フォーム (FORM, INPUT, TEXTAREA, SELECT OPTION タグ) オレンジ: 改行と引用 (BR, P, BLOCKQUOTE タグ) 黒: ルートである HTML タグ 灰: その他のタグ 元記事ではもっとたくさんの実例が出てい

    HTML構造のグラフによる可視化 | 秋元@サイボウズラボ・プログラマー・ブログ
  • HatenaをXHTML+CSSで組みなおす

    授業中、生徒は課題制作で忙しく僕は用無し。ってことで、○○○をXHTML+CSSで組みなおすシリーズ(?)第二段を勝手にこっそり作ってた。 なるべく皆が知ってるサイトで、コーディングが楽しそうなサイトを探してたのだけど、なかなか決まらず、結局、生徒のリクエストでhatenaのトップページを組みなおす事にしました。 hatenaは一部レイアウトにテーブルを使っているものの、基CSSでの段組がされているので、mixiを組みなおすような大きな軽量化は出来そうにない。なので、楽しみ方としては、いかに無駄なマークアップを減らしてシンプルなXHTMLで同じ見栄えを再現するかだ。 これがまた、パズルで遊んでいるときの感覚に似ていてとっても楽しい。近い将来、CSSで1つの要素に複数の背景画像がおけるようになったとき、このパズル感が失われてしまうと思うと残念でならない。(半分ホンキ) で、帰ってきて手直

  • hori-uchi.com: _blankを使わないで別ウィンドウを開くにはre

    はてなブックマークをみていたら、気になるエントリーを発見。 [戯] target="_blank" を使わないで新しいウィンドウでリンクを開く方法 target="_blank"という書き方がXHTML 1.1 や XHTML Basicに準拠していないので、これらに準拠するようにしつつ、別ウィンドウで開くにはどうすればよいかという話です。 別ウィンドウで開くにはJavaScriptを使えってのが推奨される方法なんですが、onclickを使って定義するのはめんどうということで、この記事では、aタグにclass="popup"という属性を与えておけば、JavaScriptで別ウィンドウを開くということをしています。 この件については友人HTMLCSSマスターなkawachi君と話したことがあって、そのときは、下のエントリで紹介されているrel="external"という方法を使うのがいい

  • わたしが知らないスゴ本は、きっとあなたが読んでいる

    なぜ自分が自分の形を留めていられるかというと、自分を知る誰かがいるから。 誰も自分を知らない場所へ旅するのもいい。そもそも誰一人いない場所を旅するのもいい。だが、いつかは放浪をやめてこの世界のどこかに落ち着かなければならない。さもないと人という存在と疎遠になり最後には自分自身にとってさえ他人になってしまう。 誰かを撮った写真は、近しい人間の心のなかでしか価値を持たないのと同じように、人の心も別の人間の心の中でしか価値を持たず、その人の思い出は、思い出したときにのみ存在するだけであって、思い出す人がいなくなれば、消え去るほかない。 人生は思い出だ、そして思い出が消えれば無になる。だから人は思い出を物語ろうとする―――コーマック・マッカーシーの『越境』を読んでいる間、そんな声が通底音のようにずっと響いていた。 マッカーシーの代表作ともいえる国境三部作(ボーダー・トリロジー)の第二作がこれだ。第

    わたしが知らないスゴ本は、きっとあなたが読んでいる
  • 仕様書に見るHTML

    2001年〜2002年にかけて『WebSiteDesign』に、“HTMLに関して曖昧になりがちな部分が、仕様書ではどのように定義されているかを確認しながら、HTMLの理解を深めていく”ことを目指したしたシリーズ「仕様書に見るHTML」を掲載しました。その原稿を、基的にそのままウェブ版として公開します。 HTMLの仕様書は、分量こそ多いものの、内容は丁寧にわかりやすく書かれており、けっして難しいものではありません。企画書のいくつかの部分を拾い読みすることで、そのスタイルに慣れ、解説書を鵜呑みにするのではなく自力で不明点を調べられるようになる、その手助けになればいいなと考えています。 HTMLの基構造 ハイパーテキストとリンク プレゼンテーションとマルチメディア フォームとインタラクション ちょっと不思議なテキストレベルの要素タイプ ごく簡単なHTMLの説明

  • 1