タグ

xml2sqlに関するdex1tのブックマーク (5)

  • Manual:page テーブル - MediaWiki

    page テーブルは「ウィキの中核」とみなすことができます。 このテーブルには、ある一つのMediaWiki内にある各ページに対応したエントリーがあります。エントリーはタイトルによって識別され、そのほかにもいくつかの不可欠なメタデータも含まれています。 それは MediaWiki 1.5 のリビジョン r6710 で初めて導入されました。 ページの内容そのものは text テーブルに保存されます。 記事の内容を取り出す際、MediaWikiはpageテーブルの page_title をまず検索します。 そして revision テーブルの rev_id から page_latest と一致する値を検索し、rev_text_id を得ます。 得られた rev_text_id を text テーブルの old_id から検索し、ページ内容を取り出します。 ページが削除されると、各リビジョンは

  • Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

    概要 記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています(ここを見る限りでは)が、代わりに全記事の情報を圧縮したファイルが公開されています。 日Wikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。 事前情報 2009/10/25に確認した時点では、日Wikipediaのダウンロードページには55個のファイルが置いてありました(うち半分は更新を通知する為のRSS)。 ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。 詳しいデータのインポート方法は、こちらのリンク集が参考になる

  • wikipediaのダウンロード&データベースにインポート - プログラマでありたい

    ダウンロード Wikipedia:データベースダウンロード ウィキペディア日語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベースへのインポートの準備。データの提供形態はxmlなので、データベースに入れるにはそれなりの工夫が必要である。幸いwikipedia自体が2種類の方法を提供してくれている。MediaWikiに付属しているimportDump.phpを使うか、xml2sqlというツールをインストールするかが選べる。 他でも使えそうなので、xml2sqlを使うことにした。 xml2sql $wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.ta

    wikipediaのダウンロード&データベースにインポート - プログラマでありたい
  • xml2sqlでエラー - Mktkmr::Diary::Tech

    wikipediaのデータベースのダンプファイルが新しくなっていたので更新しようとしたところxml2sqlでエラーが起きました。 Database dump progress http://download.wikimedia.org/backup-index.html ※日語版はjawikiです。 $ xml2sql jawiki-20090927-pages-articles.xml unexpected element /usr/local/bin/xml2sql: parsing aborted at line 652 pos 16. 気になってxmlの中を見たところ の記述でコケているので<なんたら />といった記述にxml2sqlが対応していないもよう。 とりあえず正規表現でを削って対応しました。 cat jawiki-20090927-pages-articles.xml

    xml2sqlでエラー - Mktkmr::Diary::Tech
  • Tokyo O life - ずばぴたテック » WikipediaのダンプデータをDBに投入する

    最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか? Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。 その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上

  • 1