静岡県立中央図書館は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環として、静岡県内の自治体WebサイトにアップロードしたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(以下、Geolocation Technology社)と共同開発しました。 クローリングシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になります。なお、公共図書館におけるクローリングシステムの開発は、全国初の取り組みとのことです。 45万件ものPDFを自動で収集静岡県立中央図書館らが開発したクローリングシステムは、これまで収集が難しかったとされる、静岡県内の自治体Webサイトのドメイン内に格納されているPDFを自動収集するというものです。 収集したたPDFの数は45万5133件。収集範囲はドメイン以下5階層目までです
![静岡で進む図書館DX! 自治体サイト上のPDFを自動収集するクローリングシステム開発 | Techable(テッカブル)](https://cdn-ak-scissors.b.st-hatena.com/image/square/a5ecdcaa8ae3ae6d496a571a9b1e86c90b8294b9/height=288;version=1;width=512/https%3A%2F%2Ftechable.jp%2Fwp-content%2Fuploads%2F2022%2F05%2FiStock-1314901269.jpg)