はじめに 機械学習について勉強するため、機械学習を使った何かを作ろうと思っている今日このごろ いくつかサンプルが載っているような本を買っても、サンプルを動かすのはモチベーションが上がらない やはりモチベーションが上がるものは、自分がやりたいを作るべきだなぁ 自分が機械学習を利用してやりたいことはなんだろうなーと考えた 自分が興味あるものを学習して、コンテンツ(または元のサイトのURL)を配信するものを作ってみたい もうすでに、公開されているサービスを利用しているけど気にしない(作ることにきっと意味がある) そんなことで、コンテンツの内容を取得するため、Pythonでスクレイピングをやってみることにした。 昔にスクレイピングをやったことがあるけど、サーバに負荷を掛けないように配慮されたライブラリを探してみた。(昔使っていたのは、beautifulsoup4というライブラリ) Scrapyとい
突然ですが Scrapy v1.1.0 から Python 3 に対応して嬉しいですね。これまで Scrapy のために 2.7 で通してきたんで。 さて、今回は Scrapy における エラーハンドリング(例外処理) についてまとめようと思います。 スクレイピングという行為は外部の構造化されていないデータを取ってくるものなので例外はつきものです。 例外が投げられたとき 何となく正常終了したように見せる ことは厳禁です。例外から正しく復帰させるか、または例外が投げられたならば正しく落とすことが重要です。 でないと、その後に例外に気づいて調節→リトライできませんからね。 Scrapy データフローに沿ったエラーハンドリング スクレイピング中に起こる不測の例外をキャッチするために通常の try ... except 文を使う事はできません。 なぜなら、我々が記述した Spider を実際に起動
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く