Web::Scraperで正規表現を使って必要なリンクだけを取得する方法 - 日曜プログラマのそゞろ事

世の中カテゴリーの変更を依頼記事元:

weblog.nqou.net

27 usersがブックマークコメント

コメント

3

記事へのコメント3件

注目コメント
新着コメント

kkobayashi 実装違いなのか、CSSセレクタではできんかった。Xpathではできたけど

perl

2012/11/02 リンク

inouetakuya 取得したあとに拡張子を調べてマッチした場合だけ追加する、という方法を探していたのですが、考えてみれば、取得してからきれいにするよりも、最初からきれいに取るほうがいいですね。

2010/02/18 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Web::Scraperで正規表現を使って必要なリンクだけを取得する方法 - 日曜プログラマのそゞろ事

わかってしまえば単純なことでした。 process 'a[href=~/\.jpe?g$/]', 'urls[]' => '@href'; XPathでも... わかってしまえば単純なことでした。 process 'a[href=~/\.jpe?g$/]', 'urls[]' => '@href'; XPathでも同じようにできます。 process '//a[@href =~ /\.jpe?g$/]', 'urls[]' => '@href'; Web::Scraperにはフィルタの概念があって、取得してからごにょごにょできるので、そっちのほうばかり調べていました。例えば以下のようなHTMLの場合、そのまま取得すると、前後に改行が入ってしまいます。 <title> タイトルなのだ </title> で、それを取得する時に、前後の改行を削除してやることができます。 process 'title', 'title' => ['TEXT', sub { s/^\s+//o; s/\s+$//o; } ]; こういう機能をフィルタと呼んでいます。その

ブックマークしたユーザー

ryamamoto2013/01/21
uki_e2012/11/28
kkobayashi2012/11/02
kksg2011/10/23
nakaha-t2011/07/21
poppen2011/07/20
dotliner2011/04/11
mimimu82011/02/10
Y_sekky2010/11/24
teruwyi2010/04/08
makotoworld2010/04/07
matuix2010/04/06
field_combat2010/04/06
otsune2010/04/06
inouetakuya2010/02/18
takuya54552010/02/17
sinzysinzy2009/08/15
hazy-moon2009/06/16

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 世の中

いま人気の記事 - 世の中をもっと読む

新着記事 - 世の中

新着記事 - 世の中をもっと読む

設定を変更しましたx