日本語ウェブコーパスを処理するためのプログラムを改修しているのですが,HTML アーカイブからのテキスト抽出までは問題なく動く状態になったので,HTML 文書からテキストを抽出するウェブサービスを公開してみました. http://s-yata.jp/apps/nwc-toolkit/text-extractor HTML の入力方法は,以下の 3 種類を用意しています. 入力方法 URL を入力:指定した URL からテキストを抽出します. ファイルを入力:アップロードした HTML ファイルからテキストを抽出します. HTML を入力:フォームに入力した HTML からテキストを抽出します. テキスト抽出の中身は,HTML 文書の文字コードを UTF-8 に変換してから,テキスト部分のみを切り出し,Unicode 正規化(NFKC)を施した後で,句点や感嘆符による文区切りをおこない,さら
Use Bespin Use Bespin on your sites You can download a release of Bespin Embedded. Add a script tag and a CSS file to your page and you can have the power of Bespin's editor right in your own apps! Documentation is included in the release, and you can also view the docs online. Register for Bespin No account? No problem! Click below to create an account. Registration is free.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く