タグ

2015年4月15日のブックマーク (2件)

  • ページ一覧取得

    対象ページ内の全リンクを取得して、サイトのページ一覧を取得します。 基点となるページ: 再帰取得レベル: 除外: PDF JPG 出力: プレーンテキスト リスト タイトル+URL 並び替え: する しない ※再帰取得レベルを1以上に設定すると、再帰的にページ一覧を取得します(時間がかかるので、気長にお待ちください)。 ※ソースコード中のa要素のhref属性からリンク情報を取得しています。JavaScriptで開くページは取得できない場合があります。 ※100ページを超えるサイトの場合、取得できない場合がございます。また、IPアドレス制限やログインが必要なページなど非公開領域は取得できません。 (BASIC認証領域の場合は「http://ID:PW@***.com」で取得できる場合がありますが、使用は自己責任でお願いします。) お問い合わせ

    sst
    sst 2015/04/15
  • URLからページ一覧を取得するプログラムを開発しました

    現状あるサイトのページ一覧を取得したいとき、どのようにしていますか?手元にファイルがある場合はコマンドなどで取得可能ですが、CMSなど動的なコンテンツが組み込まれている場合、どうすればよいでしょうか。wget や W3C Link Checker などさまざまなソフトがありますが、ページ一覧だけが欲しいという時に限ってはいまいち使い勝手がよくありません。 そこで、URLを入力するとそのページの同ドメイン以下のリンク一覧を取得するプログラムを開発しましたのでシェアします。たとえば、URLに「http://shinobu.tumblr.com/」と入力して、「Get」ボタンを押してみてください。 http://tshinobu.com/lab/get-page-link/ Depthに1以上を設定すると、同ドメイン以下のリンクをたどって更にリンク一覧を取得します。これを繰り返すことによって、同

    URLからページ一覧を取得するプログラムを開発しました
    sst
    sst 2015/04/15