ni66lingのブックマーク / 2013年10月23日

ni66ling id:ni66ling

2013年10月23日のブックマーク (15件)

Ruby で Web ページの本文を抽出する方法 - present
ExtractContent を使えばいい。 Webページの本文抽出 (nakatani @ cybozu labs) ただ、上の記事の ExtractContent は Ruby1.9 以上では動かなかった。正規表現エンジンが変わったからね…。無ければ自分で修正することを前提に、GitHub で探したら、案の定 1.9 対応版を発見した。 mono0x/extractcontent 試しにこれを使ってみよう。 Gemfile に gem "extractcontent", github: "mono0x/extractcontent" を追加し、bundle でインストール。使い方は簡単で、本文を抽出したい HTML を ExtractContent.analyse メソッドに渡すだけ。タイトルと本文が返ってきた。 # coding: utf-8 require "open-uri"
ni66ling 2013/10/23
ExtractContent

ruby

本文抽出

1.9

scraping
リンク
NAL研卒業研究ノート:: Rubyモジュール ExtractContent をPythonに移植してみた
ExtractContent は、HTMLから本文を抽出するRubyモジュールです。 RubyForge: ExtractContent: Project Info Webページの本文抽出 (nakatani @ cybozu labs) Perl用の同名モジュールもありますが、今回はRubyモジュールを基にしてPythonへ移植してみました。 # -*- coding:utf-8 -*- import re import unicodedata class ExtractContent(object): # convert character to entity references CHARREF = { "nbsp" :" ", "lt" :"<", "gt" :">", "amp" :"&", "laquo":u"\xc2\xab", "raquo":u"\xc2\xbb", }
ni66ling 2013/10/23
ExtractContent

python

移植

本文抽出

scraping
リンク
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont
ni66ling 2013/10/23
中谷秀洋

サイボウズ

scraping

本文抽出

ruby

ExtractContent
リンク
Beautiful SoupでHTMLやXMLをparseしよう - そこはかとなく書くよ。
Beautiful SoupはHTMLやXMLをparseしてくれるパーサーライブラリです。でも、Beautiful Soupは単なるパーサーじゃなくてちょっと賢い奴なんです。今回、このBeautiful Soupのドキュメントを翻訳しました。 http://www.tdoc.info/beautifulsoup/ 下に軽く紹介していますが、詳しくはこのドキュメントをご覧ください。 Beautiful Soupをざっくり紹介 Beautiful Soupがどういうやつかって？例えばこんなHTMLがあったとしましょう。 <HTML> <body> 改行<br> したいよね <br/> <! --あれ、空白が入ってるちょっと変なコメント--> <p> bodyが閉じてないよ？ </html> 結構変なHTMLですよね。でも、巷にはこういうのも結構あるんです。で、これをtest1.htmlだと
ni66ling 2013/10/23
python

pip

beautifulsoup

install
リンク
3.25 pprint -- データ出力の整然化
3.25 pprint -- データ出力の整然化 pprintモジュールを使うと、Pythonの任意のデータ構造をインタープリタへの入力で使われる形式にして``pretty-print''できます。フォーマット化された構造の中にPythonの基本的なタイプではないオブジェクトがあるなら、表示できないかもしれません。 Pythonの定数として表現できない多くの組み込みオブジェクトと同様、ファイル、ソケット、クラスあるいはインスタンスのようなオブジェクトが含まれていた場合は出力できません。可能であればオブジェクトをフォーマット化して1行に出力しますが、与えられた幅に合わないなら複数行に分けて出力します。無理に幅を設定したいなら、Pretty Printerオブジェクトを作成して明示してください。 pprintモジュールには1つのクラスが定義されています： PrettyPrint
ni66ling 2013/10/23
pprint

python

インデント
リンク
はてなブログ | 無料ブログを作成しよう
オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………
ni66ling 2013/10/23
beautifulsoup

python

scraping

スクレイピング
リンク
MySQL Index勉強会外部公開用
より詳細なCQRSに関する資料はこちら https://little-hands.hatena blog.com/entry/2019/12/02/cqrs 参考資料：http://little-hands.hatena blog.com/entry/jjug2017fall 社内新規プロダクトでDDD, CQRSの思想をベースとしたアーキテクチャを構築し、コマンド(更新系処理)ではSpring Data JPA(Hibernate)を、クエリ(参照系処理)ではjOOQを採用しました。結果としてそれぞれのORMの良いところを生かした組み合わせのアーキテクチャが構築できたので、その経緯と得られた知見についてお話ししたいと思います。以下のようなトピックを考えています。・CQRSの定義とメリットデメリット・DDD,CQRSを検討するにあたってのORMの選定ポイント・構築したアーキテクチャ
ni66ling 2013/10/23
MySQL

slideshare

performance

index
リンク
文字列（主にstrクラス）の機能（Python覚書 ver3.1/WindowsXP）
# 文字列の結合 print( "str" + "str" ) #=> strstr # 数値と結合する際は、自動型変換はされないので、strで囲む i = 10 print( "str" + str( i ) ) #=> str10 print( "str" + i ) #=> TypeError: Can't convert 'int' object to str implicitly # 「*」を使うと繰り返し print( "str" * 3 ) #=> strstrstr #=> 0や負の数を指定すると空文字が返る # formatを使用して、好きな形式に変換 print( "今日は{0}です".format( "晴れ" ) ) #=> 今日は晴れです print( "1 + 10 = {0}, 2 + 5 = {1}".format( 1 + 10, 2 + 5 ) ) #=>
ni66ling 2013/10/23
python

部分文字列
リンク
Pythonで、指定した属性(attribute）を持っているかどうか調べる
hasattr( オブジェクト,"属性名") 持っていればTrue、さもなくばFalseが返ってくる。 if hasattr( obj, "detail" ): detail = obj.detail これ属性が動的に変わるオブジェクトには、これやっとかないと、AttributeError: 'xxx' object has no attribute 'yyy'みたいなエラーが出る。なければ空文字列が返る、とかのほうが使い勝手がいいような気がするが、そこはきっと私にはうかがい知れない深い事情があるのだろう。
ni66ling 2013/10/23
python

attribute

属性

存在
リンク
Kirishiki Studios
自己紹介名前: 山田直行(Naoyuki YAMADA) 屋号: 霧敷スタジオ(Kirishiki Studios) ハンドルネーム: hanputu Github Twitter Blog Blog(old) Note Facebook LinkedIn SlideShare SpeakerDeck YOUTRUST 勤務先/取引先(2024年1月時点) 株式会社ナイルワークス(正社員) ドローン事業部シニアエンジニア株式会社サイバーエージェント(業務委託) AILab 経済学社会実装チーム他業務委託 1社興味・スキルバックエンド寄りのウェブアプリケーションエンジニア。小さなエンジニアリングチームでの立ち上げから長期の運用まで、ウェブサービスの開発過程全般に興味・スキルがあります。 AWSを中心にクラウド環境の構築・運用の経験が多く、運用の自動化(GitHub Actio
ni66ling 2013/10/23
python

mysql

mysqldb

サンプル
リンク
tmuxのlaunchctlエラー対策 - Qiita
Homebrewでインストールしたあと、自動起動させる設定をlaunchctlでロードしようとすると、tmuxではこんなエラーが出てくる。 % launchctl load -w ~/Library/LaunchAgents/homebrew.mxcl.mongo db.plist Bug: launchctl.c:2425 (25957):13: (dbfd = open(g_job_overrides_db_path, O_RDONLY | O_EXLOCK | O_CREAT, S_IRUSR | S_IWUSR)) != -1 launch_msg(): Socket is not connected
ni66ling 2013/10/23
tmux

qiita

launchctl

不具合
リンク
Unixtime相互変換ツール - konisimple tools
Unixtimeと通常の日時を相互に変換します。世界中のタイムゾーンに対応。 UnixTime または日時を入力してください。
ni66ling 2013/10/23
webサービス

UNIXTIME

変換
リンク
PythonからMySQLを使う - Qiita
そろそろオワコン感が出てきそうなMySQLですが、まだ普通に使うのでPythonからの使い方をメモっておきます。ライブラリのインストール MySQL-pythonを使います。ちなみにこのライブラリはMariaDBにも対応しているらしいです。 import MySQL db # DBへログイン # localhostの場合は省略可 connection = MySQL db.connect(db="test",user="test") cursor = connection.cursor() # SQL cursor.execute("select * from users") result = cursor.fetchall() for row in result: p row[0] cursor.close() connection.close()
ni66ling 2013/10/23
]

python

mysql

qiita
リンク
Universal Feed Parser - Radium Software
昨日の例でも使用した Universal Feed Parser は非常に便利。何かしらフィードを処理する場合は，とりあえずこいつに突っ込んでおけばなんとかなる。例えば，ここの RSS フィードを取得するには下のようにする。 import feedparser feed = feedparser.parse('http://d.hatena.ne.jp/KZR/rss') エントリーのタイトルを列挙するには，こんな感じ。 for entry in feed.entries: print entry.title アクセスの方法は RSS でも Atom でも同じでいい。 feedparser が正規化して扱ってくれる。ただし， Google App Engine で使用する場合は URL 直接指定は使えない模様（sandbox の制限のため？）。 urlfetch を使って取得してから
ni66ling 2013/10/23
Universal Feed Parser

RSS

python
リンク
Python の Universal Feed Parser を利用する : Knowledge On Karai
feedperserは、RSS 0.90, Netscape RSS 0.91, Userland RSS 0.91, RSS 0.92, RSS 0.93, RSS 0.94, RSS 1.0, RSS 2.0, Atom 0.3, Atom 1.0, CDF feedsをパースするPythonのモジュールである。
ni66ling 2013/10/23
Python

RSS

Universal Feed Parser
リンク
- 2013年10月24日
- 2013年10月23日
- 2013年10月22日