タグ

apiとsqlに関するbsheepのブックマーク (1)

  • Tokyo O life - ずばぴたテック » WikipediaのダンプデータをDBに投入する

    最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか? Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。 その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上

  • 1