エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Ruby: HTMLからリンクのURLを抽出するワンライナー | 開発業務日誌
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Ruby: HTMLからリンクのURLを抽出するワンライナー | 開発業務日誌
ruby -ne '$_.scan(/<a href=["\x27]?(.+?)["\x27].*?>(.*?)<\/a>/){|a,b| puts a; puts b;}' < site.tx... ruby -ne '$_.scan(/<a href=["\x27]?(.+?)["\x27].*?>(.*?)<\/a>/){|a,b| puts a; puts b;}' < site.txt ポイントは、URLを囲むのがダブルクォートとシングルクォートに対応していること。 例えば、href=”…”でもhref=’…’でも対応してます。 上記の正規表現の”\x27″はシングルクォートの16進表現です。 実行例: ↓ $ cat xx.txt <a href="http://news4vip.livedoor.biz/" target="_blank">ニュー速クオリティ</a> <a href='http://blog.livedoor.jp/booq/'>まとめたニュース</a> $ ruby -ne '$_.scan(/<a href=["\x27]?(.+?)["\x27]