テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さらに，平仮名の割合が極端に低い文や英

simsons のブックマーク 2010/10/12 01:21

<blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/25600329/comment/simsons" data-user-id="simsons" data-entry-url="https://b.hatena.ne.jp/entry/s/s-yata.hatenadiary.org/entry/20101011/1286793417" data-original-href="https://s-yata.hatenadiary.org/entry/20101011/1286793417" data-entry-favicon="https://cdn-ak2.favicon.st-hatena.com/64?url=https%3A%2F%2Fs-yata.hatenadiary.org%2Fentry%2F20101011%2F1286793417" data-user-icon="/users/simsons/profile.png">HTML からのテキスト抽出をウェブサービス化 - やた＠はてな日記</a><ul class="comment-tag" style="list-style: none; margin: 0px;"><li style="float: left">[<a href="https://b.hatena.ne.jp/q/HTML">HTML</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/text">text</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/webservice">webservice</a>]</li><li style="float: left">[<a href="https://b.hatena.ne.jp/q/useful">useful</a>]</li></ul><br><p style="clear: left">テキスト抽出の中身は，HTML 文書の文字コードを UTF-8 に変換してから，テキスト部分のみを切り出し，Unicode 正規化（NFKC）を施した後で，句点や感嘆符による文区切りをおこない，さらに，平仮名の割合が極端に低い文や英</p><a class="datetime" href="https://b.hatena.ne.jp/simsons/20101012#bookmark-25600329"><span class="datetime-body">2010/10/12 01:21</span></a></blockquote><script src="https://b.st-hatena.com/js/comment-widget.js" charset="utf-8" async></script>

このブックマークにはスターがありません。
最初のスターをつけてみよう！