エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PythonでWebスクレイピングと形態素解析。 - SE Can't Code
Webは情報の宝庫なのでクローラーを作って巡回させたりすると楽しい。僕も入社1年目の時に検索エンジン... Webは情報の宝庫なのでクローラーを作って巡回させたりすると楽しい。僕も入社1年目の時に検索エンジンを自作して一人遊んでいたが、最近また久しぶりにスクレイピングで遊んでみた。 Webページをスクレイピングして、そのページを特徴付ける単語を抽出したい時、PythonだとBeautifulSoupとMeCabを利用すれば簡単に抽出できる。urllib2でHTMLを読み込んであげたあと、BeautifulSoupに渡してあげるとHTMLタグごとの操作が簡易的になったりして、Parseがとても簡単に出来るようになる。たとえば、soup.find_all("a")を指定すると、タグaの情報を全て取得できるようになり、このようにBeautifulSoupを使うと、HTML中の必要な情報の操作がとても楽になる。 import urllib2 from bs4 import BeautifulSoup h
2017/02/25 リンク