A collaborative, open source framework for extracting public web data.

Pythonでスクレイピングというネタはすでに世の中にもQiitaにもたくさん溢れていますが、なんとなくpyqueryが使いやすいという情報が多い気がします。個人的にはBeautiful Soupの良さも知ってもらいたいと思うのでここではBeautiful Soupを使っていきたいと思います。 ちなみにこのエントリーはほとんどの部分がBeautiful Soup4のドキュメントの要約です。もっと詳しい情報が知りたい場合はドキュメントをご覧ください。 英語 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 日本語 http://kondou.com/BS4/ よくある勘違い pyqueryはjQueryのようにcssセレクタを使ってHTMLを扱うことができる点がBeautiful Soupよりも使い易いという意見がありますが、それBe
Python-Markdown¶ This is a Python implementation of John Gruber’s Markdown. It is almost completely compliant with the reference implementation, though there are a few very minor differences. See John’s Syntax Documentation for the syntax rules. See the installation instructions to get started. Goals¶ The Python-Markdown project is developed with the following goals in mind: Maintain a Python 2 an
Beautiful Soup¶ Beautiful Soup は、 HTMLおよびXMLファイルからデータを抽出するためのPythonライブラリです。 お気に入りのパーサー(構文解析器)と連携して、パースツリー(構文木)のナビゲート、検索、修正を行うための慣用的な方法を提供します。 これにより、プログラマーは数時間から数日分の作業を節約することがよくあります。 (訳注) 石鹸は食べられない¶ この文章は Beautiful Soup 4.12.0 Documentation の日本語訳です。 以前、”Beautiful Soup”を”ビューティフルソープ”と読んでしまう英語が苦手でちょっぴりHな後輩のために Beautiful Soup 4.2.0 Documentation を翻訳しました。それから10年が経ち、内容が古くなったので、2024年8月時点で最新のドキュメントをあらためて訳し
「HackerNews翻訳してみた」が POSTD (ポスト・ディー) としてリニューアルしました!この記事はここでも公開されています。 Original article: What is a Web Framework? by Jeff Knupp Webアプリケーションフレームワーク、略して「Webフレームワーク」がWeb対応のアプリケーション構築に広く使われているのは、皆さんご存じですよね。単純なブログからAjax機能を搭載した複雑なアプリケーションまで、Web上のすべてのページはコードで記述されています。最近気になるのは、FlaskやDjangoのようなWebフレームワークに興味を持ってはいるけれど、実際にはWebフレームワークの目的や機能をちゃんと理解していない開発者が意外に多いということです。そこでこの記事では、ややもすれば見落とされがちなトピックであるWebフレームワークの基
2016-12-09追記 「Pythonクローリング&スクレイピング」という本を書きました! Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見る 2015年6月21日 追記: この記事のクローラーは動かなくなっているので、Scrapy 1.0について書いた新しい記事を参照してください。 2014年1月5日 16:10更新: デメリットを修正しました。 以下の記事が話題になっていたので、乗っかってPythonの話を書いてみたいと思います。 Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる! - 病みつきエンジニアブログ 複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた - プログラマにな
このエントリーは、Python入門者と、Python入門予備軍の方を対象としています。 どうしてPythonやるの? Pythonって覚えやすい言語なんです。といっても、それなりに使いこなせるようになるには、数十時間程度はかかるわけです。なんとなく・・で勉強するなら、やらないほうがましです。ちゃんと、自分なりの目標を設定してから勉強しましょう。私の目標は、2011年中に、Pythonで日本国内でそこそこ有名になることです。そこそこでいいです。pythonでぐぐって10番ぐらいに表示されれば満足です。それぐらい有名になったら、来年はPythonで仕事しつつ、他のこと勉強してると思います。 実は世界的にはPHPより人気がある Pythonは、Java、C、C++に次いで人気のある言語です。決してマイナー言語ではありません。 2011年2月のランキング GoogleAppEngineで使える ク
FrontPage / 言語処理100本ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige
動機 上記でJAVAを試したから、というわけではなくて、むしろ、こちらが目的。 Pythonのような軽量言語ではゴリゴリ作りこむよりも、利用できるものは利用してしまったほうがよいと思う。そこでExcelを使って入力データを作ってからPythonで読み込ませたり、あるいはPythonで集計した結果をExcelで出力できたら良さそうだな、というところが動機。 ファイル形式としてはCSVファイルでも良かったりするのだが、これは案外難しいし、Excelの複数シートの扱いや、出力するとしても色づけ、罫線づけは魅力的だと思う。 準備 PythonでExcelファイルを扱うためのライブラリとして、pyExceleratorというものがあるらしい。これを使うと、Excelの読み書きが簡単にできる。 http://sourceforge.net/projects/pyexcelerator/ ライセンスはB
軽量・高速なデータベースSQLiteをPythonから扱うためのライブラリ。 インストール Python2.5から標準ライブラリに入りました。 インストール作業は不要です。 使用方法 sqlite3をインポートする #!python2.6 # -*- coding: utf-8 -*- import sqlite3 データベースを作成する con = sqlite3.connect("data.db") ファイルがすでに存在するときはファイルを開く。 ファイルがないときは新しいデータベースを作成する。 isolation_levelにNoneを指定すると、自動コミットモードになります。 con = sqlite3.connect('temp.db', isolation_level=None) 特別な名前である ":memory:" を使うとRAM上にデータベースを作ることもできます。 c
Pythonの知名度もそこそこ出てきたので、今更「Pythonには多分岐構文(switch文)が無い」とか言う人は居ないとは思うけど……居ないよね? もし、そんな人が居たのなら、教えてやろうPythonの底力(笑) とりあえず、0〜6の数値を入力してもらって、それを曜日(SUN MON TUE WED THU FRI SAT)のどれかを画面に出力する方法(出力でないと面白く無いので) >>> def weekPrint1(): ... n = input("0-6?:") ... if n == "0": print("SUN") ... elif n == "1": print("MON") ... elif n == "2": print("TUE") ... elif n == "3": print("WED") ... elif n == "4": print("THU") ...
Christoph Gohlke cgohlke@cgohlke.com • Irvine, California Windows Binaries These repositories provide rare, preview, or alternative binaries of open-source Python packages for the Windows operating system: Wheels for Python for Windows on ARM64 Wheels for Python on Windows, linked to oneAPI MKL: numpy+MKL, scipy, etc. Geospatial library wheels for Python on Windows: GDAL, rasterio, Fiona, etc. Pym
This is my error: (mysite)zjm1126@zjm1126-G41MT-S2:~/zjm_test/mysite$ pip install lxml Downloading/unpacking lxml Running setup.py egg_info for package lxml Building lxml version 2.3. Building without Cython. ERROR: /bin/sh: xslt-config: not found ** make sure the development packages of libxml2 and libxslt are installed ** Using build configuration of libxslt Installing collected packages: lxml R
1 easy_installとは easy_installはRubyのgemにあたるコマンドで、パッケージ管理システムからPythonの モジュールを自動で検索してインストールやアップデートしてくれるツール。 PerlのCPANにあたるものはPythonでは、Python Package Index、通称Python Cheese Shopという。 Python Package Index (http://pypi.python.org/pypi) 2 setuptoolsのインストール easy_installコマンドを使用してモジュールを自動でインストールするのだが、 setuptoolsをインストールすると使えるようになる。 setuptoolsをインストールするには、まず以下のURLから ez_setup.pyをダウンロードして実行すれば良い。 ez_setup.py (h
ExtractContent は、HTMLから本文を抽出するRubyモジュールです。 RubyForge: ExtractContent: Project Info Webページの本文抽出 (nakatani @ cybozu labs) Perl用の同名モジュールもありますが、今回はRubyモジュールを基にしてPythonへ移植してみました。 # -*- coding:utf-8 -*- import re import unicodedata class ExtractContent(object): # convert character to entity references CHARREF = { "nbsp" :" ", "lt" :"<", "gt" :">", "amp" :"&", "laquo":u"\xc2\xab", "raquo":u"\xc2\xbb", }
python専用のプロファイラー,cProfileを使ってみました。 プロファイラーって? 実行されているプログラムの処理のいろんなものを測定してくれる開発ツールの事をさします。 多くの開発者はプロファイラーを使って関数単位で処理時間を測定してプログラムのボトルネックを探します。 C言語でLinux環境な人なんかはプロファイラーとしてvalgrindにcallgrindをのっけて測定とかよくやってますね。 とはいえ開発しているターゲットや開発環境によってはプロファイラーが無い,あっても使えない場合もありますが… cProfileとは? python用のプロファイラーです。 MacOSX等はXCodeを入れればこれらもインストールされるでしょう(多分,気づいたら入ってました!)。 Ubuntu10.04だと素の状態では入っていないので sudo apt-get install python-
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
matplotlibは素晴らしく使い勝手がいいのだが,日本語を表示しようとした途端にハマってしまった.まだちゃんと調べきれてないんだが,どういうわけかうまく行ったり行かなかったりで,とりあえず自宅環境でちゃんと動いたのでメモ.手元の環境は python 2.6 + matplotlib 0.99.1. 最終的な結論としては,フォントを適切に設定すればOK.フォントファイルの指定はFontPropertiesを使う必要があるようだ.ここで埋め込むフォントで挙動が変わるらしいことが,経験的にわかった.動作を確認したのは最新のIPAフォント(現時点でver 003.01).このフォントは,埋込PDFを作ることをライセンス上許可しているため,フォント埋込みを要求される論文投稿など(加えて,国際学会に日本語の処理の文脈で投稿する必要がある時)使うと良いだろう.こういう基盤の仕事をオープンソースという
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く