[B! xml2sql] dex1tのブックマーク

Manual:page テーブル - MediaWiki

page テーブルは「ウィキの中核」とみなすことができます。このテーブルには、ある一つのMediaWiki内にある各ページに対応したエントリーがあります。エントリーはタイトルによって識別され、そのほかにもいくつかの不可欠なメタデータも含まれています。それは MediaWiki 1.5 のリビジョン r6710 で初めて導入されました。ページの内容そのものは text テーブルに保存されます。記事の内容を取り出す際、MediaWikiはpageテーブルの page_title をまず検索します。そして revision テーブルの rev_id から page_latest と一致する値を検索し、rev_text_id を得ます。得られた rev_text_id を text テーブルの old_id から検索し、ページ内容を取り出します。ページが削除されると、各リビジョンは

dex1t 2010/12/18

リンク

Wikipediaのダウンロードできるデータファイル一覧 | mwSoft

概要本記事はWikipediaのダウンロード可能なデータについてまとめたものです。 Wikipediaではクロール行為は禁止されています（ここを見る限りでは）が、代わりに全記事の情報を圧縮したファイルが公開されています。日本のWikipedia情報ダウンロードページ http://download.wikimedia.org/jawiki/latest/ 本記事は2009年の10月下旬に取得した情報を元に書いています。時間が経つと結果が変わる可能性があるのでご注意ください。事前情報 2009/10/25に確認した時点では、日本語Wikipediaのダウンロードページには55個のファイルが置いてありました（うち半分は更新を通知する為のRSS）。ファイルの形式は「XML」、「MySQLのダンプ」、「テキスト」などがあります。詳しいデータのインポート方法は、こちらのリンク集が参考になる

dex1t 2010/12/17

リンク

wikipediaのダウンロード&データベースにインポート - プログラマでありたい

ダウンロード Wikipedia:データベースダウンロードウィキペディア日本語版: jawiki-latest-pages-meta-current.xml.bz2 xml2sqlでmysqldump形式に変換 wikipediaのコンテンツは、600MB以上ある。それなりに時間が掛かるので、落としている間にデータベースへのインポートの準備。データの提供形態はxmlなので、データベースに入れるにはそれなりの工夫が必要である。幸いwikipedia自体が２種類の方法を提供してくれている。MediaWikiに付属しているimportDump.phpを使うか、xml2sqlというツールをインストールするかが選べる。他でも使えそうなので、xml2sqlを使うことにした。 xml2sql $wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.ta

dex1t 2010/12/12

リンク

xml2sqlでエラー - Mktkmr::Diary::Tech

wikipediaのデータベースのダンプファイルが新しくなっていたので更新しようとしたところxml2sqlでエラーが起きました。 Database dump progress http://download.wikimedia.org/backup-index.html ※日本語版はjawikiです。 $ xml2sql jawiki-20090927-pages-articles.xml unexpected element /usr/local/bin/xml2sql: parsing aborted at line 652 pos 16. 気になってxmlの中を見たところの記述でコケているので<なんたら />といった記述にxml2sqlが対応していないもよう。とりあえず正規表現でを削って対応しました。 cat jawiki-20090927-pages-articles.xml

dex1t 2010/12/12

リンク

Tokyo O life - ずばぴたテック » WikipediaのダンプデータをDBに投入する

最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか？ Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上

dex1t 2010/12/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

xml2sqlに関するdex1tのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス