サクサク読めて、アプリ限定の機能も多数!
テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さらに,平仮名の割合が極端に低い文や英
simsons のブックマーク 2010/10/12 01:21
HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記[HTML][text][webservice][useful]テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さらに,平仮名の割合が極端に低い文や英2010/10/12 01:21
このブックマークにはスターがありません。 最初のスターをつけてみよう!
s-yata.hatenadiary.org2010/10/11
日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみ...
19 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /
テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さらに,平仮名の割合が極端に低い文や英
simsons のブックマーク 2010/10/12 01:21
このブックマークにはスターがありません。
最初のスターをつけてみよう!
HTML からのテキスト抽出をウェブサービス化 - やた@はてな日記
s-yata.hatenadiary.org2010/10/11
日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみ...
19 人がブックマーク・1 件のコメント
\ コメントが サクサク読める アプリです /