エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
CETR による HTML 文書からのテキスト抽出 - やた@はてな日記
n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみ... n-yo さんに教えていただいてから随分と経ってしまいましたが,CETR を実装してウェブサービス化してみました. HTML テキスト抽出(CETR) http://s-yata.jp/apps/nwc-toolkit/cetr-text-extractor CETR というのは "Content Extraction via Tag Ratios" の略で,HTML 文書の各行に含まれるタグの割合を利用してコンテンツを抽出する手法です.簡単な内容は以下のようになっています. コメント,スクリプト,スタイルを取り除きます. 文書が 1 行のみで構成されている場合,65 文字ずつに分割します.修正(2010-11-10) 各行に含まれるタグの割合(Ti)を求めます. タグの割合(Ti)を平滑化します(Ti'). Ti' における近傍との差(Gi)を求めます. Gi を平滑化します(Gi').
2010/11/10 リンク