サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
yono.cc
$ python test.py SyntaxError: Non-ASCII character '\xe3' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
概要 HTML から文章などを抽出して解析する際の Tips をまとめたいと思います。 今回は、HTML 中に出現する単語を数える場合を想定しています。 このような解析の際に問題になるのは、文字コードと言語かと思います。 そこで、Python で文字コードと言語を判定する方法をまとめてみます。 文字コード判定 1. HTTP ヘッダーの charset を確認する まずは HTTP ヘッダーの情報を利用するのが確実かと思います。 ただし、返された charset に Python が対応してない場合があるので、 codecs.lookup() で確認しています。 対応していない場合、もしくは charset の記述が間違っている場合は LookupError となります。 import urllib import codecs url = 'http://example.com' resp
Google App Engine とは Google が提供するサービスの一つ Web アプリケーションを Google のインフラ上で実行する環境を提供する PaaS (Platform as a Service) に分類される Web アプリケーションが実際に動作するマシンを意識しなくともよい 本番環境があらかじめ整備されている 開発言語が制限される Python (GAE/P) Java (GAE/J) JVM 上で動けば(Scala, JRuby, Quercus など) 一応 OK 一般的な RDBMS は使えない DataStore というデータを保存する仕組みが用意されている 基本的に無料 その代わりいろいろと制限があります。 作成できるアプリケーションは10個まで ******.appspot.com というドメインを取得できます。 一旦作成したドメイン名は変更できません
yono.cc Python 基礎: 目次 Python イントロダクション 標準型 データ構造 式/文 日本語を扱う Copyright 2013 © Yusaku ONO All rights reserved.
マルコフ連鎖とは ひとつ前の状態における情報のみを参考に、現在の状態が決定する 応用例 手書き文字認識 音声認識 マルコフ連鎖による文章生成とは マルコフ連鎖を利用して新しい文章を生成する チャットや Twitter などに存在する「人口無脳」に応用される [ 実例を見せる ] マルコフ連鎖による文章生成をライブラリとして開発 python-markovchains の紹介 読み込ませた文章をもとに文章生成 文章をDBに読み込ませる DBのデータをもとに文章生成 github で公開してます → http://github.com/yono/python-markovchains よのぼっと Twitter 上で動作する Bot → http://twitter.com/yonobot python-markovchains を内部で利用している http://twilog.org/yon
このページを最初にブックマークしてみませんか?
『Yusaku ONO - yono.co』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く