[B! utf-8] lamichのブックマーク

lamich id:lamich

utf-8に関するlamichのブックマーク (12)

Python3 – requestsの文字化け対策 | memorandum-plus
いつものごとくスクレイプの話ですが、requestsを使っていて文字化けに少々ハマりましたので、残しておきます。結果的にそもそも文字コードの扱いについてちゃんと理解できていなかったことが問題でしたー HTMLのcharset 今回スクレイプしようとしていたWebサイトはmetaタグのcharsetにEUC-JPが設定されていました requestsさんですが、基本的にはmetaタグではなくHTTPレスポンスヘッダのcontent-typeをみてcharsetを判断しているようです。が、content-typeが対象のWebで設定されておらず読めない場合はデフォルトのISO-8859-1となってしまうようです result = requests.get('スクレイプするURL') print(result.encoding) 実行結果 ISO-8859-1 ちょっとググったら以下のやり方で
lamich 2020/01/08
python

requests

UTF-8

encode

decode
リンク
NotFound
プログラムメモ Category 最近のメモ検索 NotFound ページが見つかりません戻るページが見つかりません申し訳ございません。トップページから検索してください。 RSSフィードこのサイトについてデザイン設定ページの先頭へ
lamich 2012/01/15
mac

utf-8

TextWrangler

editor

freesoft
リンク
Google Code Archive - Long-term storage for Google Code Project Hosting.
Code Archive Skip to content Google About Google Privacy Terms
lamich 2011/09/16
1.7.8からutf-8をサポート

windows

git

install

msysgit

utf-8
リンク
PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
lamich 2009/03/05
Python

Unicode

UTF-8

UnicodeEncodeError

Error
リンク
コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ
Perl › Windows この方法では文字が正しく描画できないようです。(maeyanさんの記事)。わたしの環境でも駄目でした。手順コマンドプロンプトのフォントの変更コマンドプロンプトの文字コードの変更ショートカットから文字コードの自動設定を行う。 Windowsのバージョン Windows XP Home Edition Version 2002 Service Pack 2 で行いました。 1. コマンドプロンプトのフォントの変更コマンドプロンプトを立ち上げる→タイトルバー右クリック →プロパティ→フォントから"MS ゴシック"を選択する。フォントを"MS ゴシック"に変更します。MS ゴシックは、Unicodeに対応するすべての文字を正しく表示できるわけではないですが、一応ユニコードに対応しています。日本語や飾り文字を含む文字を表示することができます。 2. コマン
lamich 2008/07/06
cmd

utf-8
リンク
MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.9 Unicode のサポート
Unicode 標準には、Basic Multilingual Plane (BMP) の文字と BMP の外部にある補助文字が含まれています。このセクションでは、MySQL での Unicode のサポートについて説明します。 Unicode 規格自体の詳細は、「Unicode Consortium の web サイト」を参照してください。 BMP 文字には次の 3 つの特性があります。コードポイント値は 0 から 65535 (または U+0000 と U+FFFF) の間です。これらは、8、16 または 24 ビット (1 から 3 バイト) を使用して可変長エンコーディングでエンコードできます。これらは、16 ビット (2 バイト) を使用して固定長エンコーディングでエンコードできます。主要言語のほとんどすべての文字には、これらで十分です。
lamich 2008/05/27
mysql

unicode

utf-8

文字コード
リンク
MySQL :: MySQL 8.0 リファレンスマニュアル :: 11.7 データ型のストレージ要件
ディスク上のテーブルデータのストレージ要件は、複数の要因によって異なります。別々のストレージエンジンは異なる方法でデータ型を表し、ローデータを格納します。カラムか行全体のどちらかでテーブルデータを圧縮できますが、テーブルまたはカラムのストレージ要件の計算が複雑になります。ディスク上のストレージレイアウトが違っていても、テーブル行に関する情報を通信および交換する内部 MySQL API は、すべてのストレージエンジンにわたって適用される一貫したデータ構造を使用します。このセクションでは、データ型の固定サイズ表現を使用するストレージエンジンの内部形式およびサイズを含め、MySQL がサポートするデータ型ごとのストレージ要件に関するガイドラインおよび情報について説明します。情報はカテゴリまたはストレージエンジンごとに示します。テーブルの内部表現の最大行サイズは 65,535 バイトで
lamich 2008/05/27
utf-8

文字コード

mysql

text

varchar

byte
リンク
Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法
[Home] [Setting up Mac OS X] [Python]: [ファイルを読む] 日本語を使う Pythonで日本語を使う Python 2.4以降では、標準で日本語を扱うことができます。 PythonのソースコードをUTF-8で書くには日本語を扱うPythonのスクリプトの中では、UTF-8の文字コードを使うのが楽です。 Mac OS Xのターミナルで日本語を扱う場合は、ここの「4. Terminalの設定を変える」の指示に従ってください。以下、ソースコードの簡単な例を示します。 #!/usr/bin/env python # -*- coding: utf-8 -*- import re jtext = u'子猫が隠れんぼをしています' print 'jtext has', len(jtext), 'Japanese characters.' if re.se
lamich 2008/03/08
文字コード

utf-8

django

python
リンク
Shine-up(そんな日常): FTP with UTF-8
そう、Fedora Coreの文字コードはUTF-8なんですよね。で、最初にEUCにしようかどうか迷ったんですよ。で、結局今更EUCもいやなんでUTFのままにしたんですよね。 SSHでのログインにはTeraTerm ProのUTF対応版があるからいいやと思いつつ。気付いたら、FFFTPはUTF対応してないぢゃん！と。日本語ファイル名もろ文字化けしてるぢゃん！と。ちょっとどうしようかと思ってたところにFFFTP 1.92a UTF-8 対応私家版。そぅ、これ使えば全く問題ないですな、良かった良かった。で、ちょっと間抜けなことをば試みる。メイン機の//***.***.***.***/C$(=C:\)をサーバ機の/mnt/mdcにマウントして、それをFTP通して再度メイン機から見る。あー・・・意味ねぇ。
lamich 2007/11/28
utf-8

ffftp

freesoft

ftp

network
リンク
2006-07-02
家ではWinXPとLinux、会社ではLinuxを使っているのだが、家から会社のLinux(UTF8)にSSH経由のFTP接続をする際、FFFTPではファイル一覧のUTF8対応してないため漢字コードが化けるという問題があった。とりあえずNextFTPを使って代用してきたが、他のサーバにつなげるときにはFFFTPで、会社につなげるときだけNextFTPという使い方にそろそろ我慢できず、FTP UTF8というキーワードでぐぐってみたところ、FFFTPの改造方法が『後の末莉』さんのところにあるのを見つけた。おー！！ (FFFTP本家) http://www2.biglobe.ne.jp/~sota/ffftp.html (FFFTPのUTF-8対応改造) http://homepage1.nifty.com/kisa/dailylife/diary/200502t.html それを参考にしながら
lamich 2007/11/28
ffftp

ftp

utf-8

source

amagram

linux

c
リンク
http://homepage1.nifty.com/kisa/dailylife/diary/200502t.html
lamich 2007/11/28
utf-8

ffftp

amagram

ftp

sota

sorce

hack

c
リンク
KanjiTranslatorの詳細情報 : Vector ソフトを探す！
「文字コード」カテゴリーの人気ランキング nkf.exe nkf32.dll Windows用ネットワーク用漢字コード変換フィルタシフトJIS,EUC-JP,ISO-2022-JP,UTF-8,UTF-16(ユーザー評価：0) KanjiTranslator 大量のファイルの文字コード(及び改行コード)を一括して変換(ユーザー評価：4) wdConv.VBS MS WordでJIS、SJIS、EUC、EBCDIC、UTF-16、UTF-7、UTF-8を変換するVBScript(ユーザー評価：0.5) SJIS-EUC変換プログラム変換のカスタマイズ可能なSJISコードとEUCコードの相互変換するコンソールプログラム(ユーザー評価：0) jconv 漢字コード変換プログラム(UTF-7/UTF-8/UTF-16/SJIS/EUC/JIS等が扱えます)(ユーザー評価：3.5) 「テキスト
lamich 2007/09/21
文字コード

freesoft

文字化け

utf-8
リンク
1