[B! unicode] mega-ne0221のブックマーク

mega-ne0221 id:mega-ne0221

unicodeに関するmega-ne0221のブックマーク (4)

pythonでUTF8のテキスト処理 - Qiita
python2.x系は、strオブジェクトとunicodeオブジェクトが別々なのでややこしい。いろいろ調べているうちにこんな感じになった。 python3.x系はテキストはunicode処理されるので、もっと簡単らしい。 MacOS X 10.6.8 Python 2.6.1 # coding: UTF-8 import codecs import string import re f_in = codecs.open('test.txt', 'r', 'utf-8') f_out = codecs.open('test_out.txt', 'w', 'utf-8') lines = f_in.readlines() #読み込み lines2 = [] for line in lines: line = string.replace(line,u'テキスト',u'text') #テキスト
mega-ne0221 2017/02/06
あとで読む

LINE

import

String

Python

UTF-8

open

unicode

test

python2
リンク
Pythonでの文字列置換をマスターする - orangain flavor
Pythonの文字列置換は、置換の仕方やバージョンによって利用すべきモジュールが異なっており、少しわかりにくいので、Python 2.xでのstrとunicode、3.xでのstrでの置換をまとめます。文字列による単純な置換 (str.replace) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 src = 'I like orange.' dst = src.replace('orange', 'apple') # 'I like apple.' str.replaceの第3引数で置換を行う最大回数を指定できます。 str.replace (2.x) str.replace (3.x) 正規表現による置換 (re.sub) str (2.x) / unicode / str (3.x)のどれでもほぼ同じです。 import re src =
mega-ne0221 2017/02/06
python

短

文字列

文字列操作

STR

あとで読む

置換

unicode

プログラミング

正規表現
リンク
Python2で文字列を処理する際の心掛け - Qiita
日本語を扱うPythonプログラマ(with Python2)にとっての最大の天敵(過言)、UnicodeEncodeError。昨日横の人がその餌食となり、その解決の手助けをしているうちに自分の中でPython2での文字列処理の方向が少し整理できた。(近いうちにPython3バージョンもまとめたい) 個人的結論バイト文字列/ユニコード文字列のどちらを扱っているかを常に意識しておく。 (基本的に)プログラム内ではユニコード文字列を扱い、標準入出力とやり取りする際(ex. print)にはバイト文字列に変換する。バイト文字列とユニコード文字列バイト文字列は特定のエンコード方式(ex. utf-8)でエンコードされており、リテラルでは'あいう'のように表現する。一方、ユニコード文字列はUnicodeのコードポイントを並べたものであり、リテラルではu'あいう'のようにuをつける。 (py
mega-ne0221 2017/02/02
あとで読む

テキスト処理

ブックマークバー

UTF-8

Python

Unicode

文字コード

python2

decode

重要
リンク
文字って何かね？ - Qiita
元ネタ: 「文字列を文字の列とみなす単純化」ってどういうこと？解説編 - 西尾泰和のはてなダイアリー Shift JISおじさん（半角文字は1バイト、全角文字は2バイト派）今どきShift JISもないだろうと思いますが、レガシーな業務システムなんかだと割と普通に残っていますね。 C#でShift JISな文字を扱いたければ、System.Text.Encodingクラスを使っていろいろすればいいです。 var text = "あいう"; var enc = System.Text.Encoding.GetEncoding("Shift_JIS"); // コードページ932でも可。 // 日本語WindowsならDefaultプロパティでもいい。 var bytes = enc.GetBytes(text); 後で書きますが、C# のchar型やstring型はUnicodeをベースに
mega-ne0221 2016/06/28
文字コード

programming

Windows

c#

Unicode

unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx