タグ

ブックマーク / www.zubapita.jp (2)

  • Tokyo O life - ずばぴたテック » WikipediaのダンプデータをDBに投入する

    最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか? Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。 その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上

    sunaoka
    sunaoka 2010/04/30
  • Wikipedia API(検索&パース)を作りました | Tokyo O life

    最近、Wikipediaのデータを活用したサービスが増えている。 ただし、先日WikipediaのダンプデータをDBに投入する で紹介したように、Wikipediaはサーバから叩けるAPIを提供していない。不定期にダンプデータが提供されているので、それを自分のサーバのデータベースに投入して使うことは可能なのだが、収録されているデータは、Wikiのマークアップがついたままの生テキストなので、使い勝手がよくない。 以前から提供されているSimpleAPIWikipedia」は、たぶんこのダンプデータを使って、独自に検索APIを提供しているのだと思うが、 複数の検索結果を一度に返してくる。 簡易な要約文しか提供されない。 という制約があって、Wikipediaに収録されている豊富なデータを活用するには、ちょっと足りない感じがする。 そこで、Wikipediaのマークアップを解釈して、XMLに変

    sunaoka
    sunaoka 2010/03/04
  • 1