タグ

ブックマーク / qiita.com/nezuq (2)

  • 徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita

    紹介 オープンデータは、 政府データを、全ての人が自由に加工し、自由に再配布し、自由に商用利用できるようにしていこうとする政治活動です。 現在、政治の透明性や経済の活性化の観点から注目されており、 日政府も実際にデータを出し始めています。 -> 参考サイト:Open DATA METI | 経済産業省のオープンデータカタログサイト ただし、日のオープンデータの問題として、 ☆1のオープンデータが出てくるケースが多い事が挙げられます。 オープンデータは、そのオープン性により5つ星で評価されます。 ☆1のオープンデータ、つまりPDFは、 構造化データではない為に最もクローズドとされています。 しかし、技術に疎い公務員の方に機械可読性の重要性を説くことは難しく、 それを理解して貰えたとしても機械可読性の為の予算を割り振って貰えるかは微妙です。 現実問題として、PDFに対峙する必要があるのです

    徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiita
  • Rでクローリング。FirefoxをR経由で自動操作する。 - Qiita

    概要 WebのUIテストフレームワーク「Selenium」は、 InternetExplorerやFirefox、GoogleChromeなどのブラウザを自動操作できるようにする。 いわばブラウザマクロツールだ。 また、このツールはHTMLソースの取得やエレメントからの値取得もできるため、 ログイン処理やJavascript制御があるサイトでのクローリングにも転用できる。 正直、前回のニコニコ静画用コードの方が断然役に立つと思うが、 諸事情によりRを通して実行するコードを作ったので公開する。 機能 小説投稿サイト「小説家になろう」でキーワード検索する。 ヒットした作品の一覧をファイルに出力する。 ※Firefoxが自動で開き、操作される。処理後、Firefoxは閉じられる。 事前準備 下記ソフトをインストールする。 ・Java ・Firefox rJavaパッケージのインストール(下記コー

    Rでクローリング。FirefoxをR経由で自動操作する。 - Qiita
  • 1