[B! python][卒研] moqadaのブックマーク

moqada id:moqada

pythonと卒研に関するmoqadaのブックマーク (1)

Wikipedia コーパス - odz buffer
Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。なので、ためしに英語版 Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラフト形式で出力してみた。日本語版で、抽出に 13 分、インデキシングに 75 分。英語版で、抽出に 60 分、インデキシングに 3 時間というところ。(CPU: Intel Xeon 2.66GHz) #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import os import codecs import re from itertools import izip, count from xml.etree import ElementTree
moqada 2007/07/30
WikipediaのダンプデータのXMLをパース、書式情報を削除して1項目/1ファイル化、HyperEstraierの文書ドラフト形式で出力

python

wikipedia

corpus

code

卒研
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx