タグ

ブックマーク / ymotongpoo.hatenablog.com (11)

  • gevent+pyqueryで並列にスクレイピングする - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の炭酸x2倍のジョルトコーラです。なんか適当に書いたコードが予想外にはてブ付いたので「みんな好きモノなんだなー」と思いました。同期なコードだとURL増えたときに詰まっちゃうので、非同期なやつもちょろっと紹介しますよ。 あ、くれぐれも闇雲なスクレイピングはしないでくださいよ。DoS攻撃と変わらないですから。捕まっても僕は責任とりませんよ。 リンク 5分でWebスクレイピングをする - YAMAGUCHI::weblog 前回のエントリ。これは直列なコードなのでURLが増えれば増えるほど線形に遅くなる。 やってみよう おさらい 前回は指定した複数のURLのページにあるHTMLからaタグを全部抜き出す、というようなことをしたのでした。で、今回はそれを非同期化しましょうという話。 非同期にしたいところ 前のコードでforとかになってるところは基的に同期じゃなく

    gevent+pyqueryで並列にスクレイピングする - YAMAGUCHI::weblog
  • エンジニアが知っておくべき厳選英語Webサイトなど - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の情弱です。なんか「WEB屋が知っておくべき」ってエントリが出てたんですが、まあ自分はエンジニアの端くれなのでこのへんは読んでますよ、ってのをメモっておきます。僕は情弱なので、もっと素敵なサイトがあったら教えて下さい。 「英語だから…」なんて拒否っちゃ駄目なWEB屋が知っておくべき厳選ブログ、WEBマガジン色々 | バンクーバーのうぇぶ屋 僕は主にPython系の記事を読んでますが、他のテーマ(言語、OS、仮想化、DBなどなど)はきっと著名な方々がテーマに沿って書いてくれてたりするんじゃなかろうか、と思っています。 こんなのを読んでいる 公式サイト 公式サイト なにはともあれ公式サイトとかを見ておくのはマナー。例としてPythonの公式。更新に関するRSSがあればそれを登録すると便利です。 パッケージ管理レポジトリ 今日日のプログラミング言語だとパッケー

    エンジニアが知っておくべき厳選英語Webサイトなど - YAMAGUCHI::weblog
  • ふつうのユーザが知らないHTML5コーディングツール10選 - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の情弱です。今日はChrome+HTML5 Conferenceのお手伝いに来てます。いままで全く触れてこなかった世界ですが、結構HTML5はXMLのようにセマンティクスに重点を置いてるんですね。CSS3も動的なエフェクトを簡単にかけられるようになってるし、とてもいいですね。 さて、YouTube Live Streamのお手伝いしながらRSS見てたら、ちょうど今日のテーマに沿ったエントリがdiggで紹介されてたので、翻訳しました。 10 Excellent HTML5 coding Tools Many Users Don’t Know About 10 Excellent HTML5 coding Tools Many Users Don’t Know About (オリジナル) HTML5はウェブサイトの作成方法を根から変えることになるでしょう。

    ふつうのユーザが知らないHTML5コーディングツール10選 - YAMAGUCHI::weblog
  • 無料で見られるプログラミング関連書籍一覧 - YAMAGUCHI::weblog

    はじめに こんにちは、動画配信界の情弱です。年始からStackOverflow眺めてたら超絶便利な質問に神回答がされてたので忘れないうちにメモっておく。2012年どっかで役に立てばいいですね。 参考 オリジナルはこちら。ここではコメントにパラパラと載ってたので、まずは直近1ページ目だけにあったものを1個のリストにまとめてみた。ほぼGeorge Stocker氏による回答を載せただけだけど。あとちょっとだけ自分で和訳とか加えたので、知っているものがあればコメントに載せて下さい。追加します。まだDとかFactorとか載ってないし、Pythonも全然足りないし。 API Only - Stack Exchange もしかするとバージョンが古かったりするものもあるかも知れませんが、それもコメントで教えてもらえるとその旨追記します。 他にも過去に挙がったもののリンク ReadWriteWebのプログ

    無料で見られるプログラミング関連書籍一覧 - YAMAGUCHI::weblog
  • 5分でWebスクレイピングをする - YAMAGUCHI::weblog

    はじめに あけましておめでとうございます。今年もPython界の江古田ちゃんとして頑張っていく所存です。さて id:nishiohirokazu が5分でPythonは便利だと思える記事を元旦から書いていました。 「ほえー、さすが西尾さんや」って思ってたら、西尾さんが「おい山口、5分でPython便利だなーって思える記事書けや」っていう無言の圧力をかけてきたので*1 *2なんとなく書きました。 「5分で」っていうのが読者が読む時間なのか、筆者が書く時間なのかがわからなかったので前者ということにしました。5分で記事とコード両方書くとか無理や。 こんなことないですか 「Webでスクレイピングしたいよー、てへへ。だけど文字コードとかがページごとにバラバラでマジしんどいっす。しかもタグ抜き出すのとかめちゃめんどいっす><」ってことはあったりしませんか? リンクのタイトルとかも綺麗に抜き出したいなー

    5分でWebスクレイピングをする - YAMAGUCHI::weblog
  • ジェネレータを用いた再帰関数に関する考察 - YAMAGUCHI::weblog

    相変わらずジェネレータではまってるわけです。今回は自分で実装する際に詰まったところ。 ジェネレータを使って再帰関数を作るというのは、心持ちとしては関数型言語の遅延評価を利用した無限リスト表現なんかと通ずるところがあると勝手に思ってるわけですが、その実装の前にまずは普通の再帰関数を書いてみたわけです。 def test(query): if len(query) == 0: return else: print query test(query[1:]) ここでたとえば test("hoge") なんてやると結果は hoge oge ge eなんてなるわけです。test()をジェネレータを使って実装するとどうなるかというと def test(query): if len(query) == 0: return else: yield query # ここでyield文 for q in te

    ジェネレータを用いた再帰関数に関する考察 - YAMAGUCHI::weblog
  • Python3.3のvenvを試す - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の情弱です。最近は「勉強会」という名を借りたリクルーティングが行われているようですが、賢良なる読者の皆様におかれましては、主催者の主旨、講師の方々のブログおよび公開レポジトリ等をご確認の上ご参加されていることでしょう。 それはさておき、Python3.3の公式リリースの足音が聞こえて参りました。このマイナーバージョンアップは実は非常に大きく、2年の長きにわたって実施されていたLanguage Moratorium*1を終え、ついにPythonが3系として完全に後方互換性を排除し始めるバージョンとなるわけです。*2 そんな中私が個人的に一押し注目中のvenvモジュールについて調べてみました。 venv a.k.a pyvenv PEP 405 -- Python Virtual Environments 26.13. venv — Creation of

    Python3.3のvenvを試す - YAMAGUCHI::weblog
  • C言語でプログラミングする際の覚書(Notes on Programming in C) - YAMAGUCHI::weblog

    はじめに こんにちは、Go界のシャールト・コプリーです。気がついたら最後のエントリから3ヶ月も経ってました。 Goを始めると「なんでこういう書き方になってるんだろう」とか、「そもそもなんでこういう仕様になってるんだろう」とか思うことがちらほらあると思います。これは大いにGoの作者の一人であるRob Pike氏の思想に依るところがあるのが見受けられます。彼のプログラムに対する考え方が25年前に公開され「Pike Style」として知られていますが、いまもその考え方は大きくは変わっていないと思われます。せっかくなので翻訳しました。文はC言語に関する文章ですがその質は言語に依らないものだと思います。 Notes on Programming in C (追記)25年前なのでコンパイラの動作に依存する部分(includeに関する記述)などは古い部分もありますが、プログラミングスタイルに関する部

    C言語でプログラミングする際の覚書(Notes on Programming in C) - YAMAGUCHI::weblog
  • Pythonの環境設定でむかついてる人はとりあえずこれをコピペで実行してください - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の情弱です。最近は、以前に比べてPythonを触る人が増えてきたような印象ですが、それでもやれeasy_installだ、やれvirtualenvだと言われても、どうやって設定したらよくわからない、という発言をちらほら見かけています。 でもぶっちゃけ超簡単なので、とりあえず初めてPythonの環境設定する人はこれをコピペで動かして下さい。 (2017.01.26追記) 注意:この記事はもう古いので、Python2をいまから使い始めるなんていう奇特な人以外は次の記事を読んで下さい。 ymotongpoo.hatenablog.com 要点 はまりどころは多分次のどれかだと思う Pythonのバージョンをどれ使っていいかわからない 「easy_installを使え」と言われるがeasy_installというパッケージが見つからない virtualenvの入れ

    Pythonの環境設定でむかついてる人はとりあえずこれをコピペで実行してください - YAMAGUCHI::weblog
  • 「The Non-Designer's Design Book」はエンジニア必読の書籍だった - YAMAGUCHI::weblog

    はじめに こんにちは、Python界の情弱です。もうかれこれ5年くらい「僕にウェブデザインのセンスがあったら、いやせめてデザインのセンスがあったらどんなによかったことだろう」と思っていたわけですが、半ば諦めていました。しかし先日同僚の@kotarokパイセンに勧められるがままに「ノンデザイナーズ・デザインブック」を読んだら、これが素晴らしい書籍で、もう一度僕にやれば出来るかもと思わせてくれたわけです。 ノンデザイナーズ・デザインブック [フルカラー新装増補版] 作者: Robin Williams,吉川典秀出版社/メーカー: 毎日コミュニケーションズ発売日: 2008/11/19メディア: 単行(ソフトカバー)購入: 58人 クリック: 1,019回この商品を含むブログ (102件) を見る 書が良いのは、多くのデザイン例があり、それも原則の適用後だけではなく、その前後でどれだけデザイ

    「The Non-Designer's Design Book」はエンジニア必読の書籍だった - YAMAGUCHI::weblog
  • virutualenvとvirtualenvwrapperとpipを使う - YAMAGUCHI::weblog

    はじめに なにかテスト環境を作ったり、開発を行うときにパッケージをインストールしなければいけないけど、環境を汚したくないなっていうときにvirtualenvが便利だ、という話は前から聞いてたんですが必要に駆られるとときがなかったので使ってませんでした。 しかしようやくそういうときがやってきたので早速入れてみたんですがこれは便利すぎる! 参考 virtualenv, virtualenvwrapper, pip を使う方法 - Ian Lewis virtualenvwrapper のフックスクリプト - SPEAKER BREAKA pip って何(・ω・ ) - Djangoへの片思い日記 Google先生に聞いてみたら上位が全員PySpaな人でした。ちゃんちゃん。どうもありがとうございますー。 virtualenvとvirutalenvwrapperの設定 $ sudo easy_in

    virutualenvとvirtualenvwrapperとpipを使う - YAMAGUCHI::weblog
  • 1