タグ

文字コードに関するyosshi71jpのブックマーク (9)

  • UTF-8環境からEUC-JP環境のサーバにsshした時の文字化けを防ぐ - ぬいぐるみライフ?

    Ubuntuはデフォルトで文字コードとしてUTF-8を使っているため,ターミナルを使ってEUC-JP環境のサーバにsshした時,日語の文字化けが起こってしまう.cocotというツールを使えばこれを防ぐことができる.便利. cocot - COde COnverter on Tty http://vmi.jp/software/cygwin/cocot.html $ mkdir src $ cd src $ wget http://vmi.jp/software/cygwin/cocot-20080315.tar.bz2 $ tar jxvf cocot-20080315.tar.bz2 $ cd cocot-20080315 $ ./configure $ make $ sudo make installPacoを使っている場合は最後のsudo make installを以下のようにすれ

    UTF-8環境からEUC-JP環境のサーバにsshした時の文字化けを防ぐ - ぬいぐるみライフ?
  • pyjf - python library for Japanese language - atsuoishimoto's diary

    語エンコーディング変換ライブラリ pykf も開発以来10年を超え、さすがにいろいろと古くなってきた。ぼちぼち大幅に手を入れようかと検討してみると、どうも原型がなくなるぐらい修正が入りそうな気配。 それでは、ということで pykf はそのままにして、新しくモジュール pyjf を起こすことにした。とりあえずプロトタイプとしてpure Python版を開発し、問題なさそうならPyRexかCython版を開発しようと思う。Python版は一通りできあがっているので、拡張モジュールの使えないGoogle AppEngineなどで使ってみてほしい。 現状での仕様は以下の通り guess(s) 文字列 s のエンコーディングを推測する。戻り値は UNKNOWN, ASCII, SJIS, EUC, JIS, UTF8, UTF16_LE, UTF16_BE のいずれかとなる。 UTF16_LE

    pyjf - python library for Japanese language - atsuoishimoto's diary
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • Pythonにおける日本語のエンコーディングの検出について - 試験運用中なLinux備忘録・旧記事

    (2015/1/29)一部のリンク先を修正し、更にサンプルコードもPython 3で動作することなどを目的に一部修正した。 エンコーディングの簡易検出 例 ASCIIとISO-2022-JPの区別が重要でない場合のデコード 実用的なエンコーディング判別パッケージ エンコーディングの簡易検出「Pythonにおけるエンコーディングの扱いとエンコーディングの変換について」の最後で、特定のエンコーディングにエンコードされた文字列をUnicode文字列にデコードする際に実際のエンコーディングに合っていなければUnicodeDecodeErrorが出ることを書いたが、言い換えると、一部の例外を除いて正しいエンコーディング指定と文字列オブジェクトとの組み合わせでのみUnicodeDecodeErrorは発生しない。 これを利用して、エンコーディングが不明な文字列オブジェクトに対して、エンコーディング名の

    Pythonにおける日本語のエンコーディングの検出について - 試験運用中なLinux備忘録・旧記事
  • 『TeraTermを環境ごとに切り替える』

    サーバー保守をする際にはTeraTermを使っているんですが、サーバーごとに環境が微妙に違ってそのたびにTeraTermの設定を変えないといけなくて面倒なときがあります。 典型的なのが、文字コード(LANG)。 UTF-8の環境もあれば、EUC-JPの環境もあり、ほかの設定は同じでいいんだけど文字コードだけ切り替えたいということがあります。 ただ、環境ごとに自動で切り替える方法はないみたいですね。 もっとも手軽な例で言えば、起動オプションを変えたショートカットを作っておくということでしょうか。 まずTeraTermのEXEファイル(ttermpro.exe)へのショートカットを作ります。 で、ショートカットのプロパティを開いて リンク先に下記を指定します。 ※ 文字コードをEUC-JPにしたい場合 "C:\Program Files\teraterm\ttermpro.exe" /KR=E

    『TeraTermを環境ごとに切り替える』
  • TeraTerm マクロでターミナル文字コードを変更 - miau's blog?

    まともな方法を始めて知ったので、その経緯とかメモとか。 TeraTerm の自動ログイン用マクロとかよく作ると思うんですが、サーバ毎にターミナルの文字コードは違うわけで。 文字コードを指定する TTL コマンドはないので、今までは TERATERM.INI、TERATERM_UTF8.INI のように使いたい文字コード毎に設定ファイルを用意して、その中で KanjiReceive=UTF-8 KanjiSend=UTF-8 みたいに文字コードを指定 ↓ .ttl の最後で restoresetup 'TERATERM_UTF8.INI みたいにサーバの文字コードに応じた .INI ファイルの読み込み、という方法をとってました。 でもこの方法だと、プロジェクトで .ttl ファイルを共有する場合に .INI ファイルも共有する必要があって面倒なんですよね。 そんなわけで要望を出してみたわけで

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 4.9.2 標準エンコーディング

    Python には数多くの codec が組み込みで付属します。これらは C 言語の 関数、対応付けを行うテーブルの両方で提供されています。以下のテーブル では codec と、いくつかの良く知られている別名と、エンコーディング が使われる言語を列挙します。別名のリスト、言語のリストともしらみつぶしに 網羅されているわけではありません。大文字と小文字、またはアンダースコア の代りにハイフンにしただけの綴りも有効な別名です。 多くの文字セットは同じ言語をサポートしています。これらの文字セットは 個々の文字 (例えば、EURO SIGN がサポートされているかどうか) や、 文字のコード部分への割り付けが異なります。特に欧州言語では、 典型的に以下の変種が存在します: ISO 8859 コードセット Microsoft Windows コードページで、8859 コード形式から導出されて いるが

  • PythonのUnicodeEncodeErrorを知る - HDEラボ

    Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

  • 1