タグ

encodingに関するHashのブックマーク (9)

  • 【Linux】文字化けで解凍不能なZIPファイル用「unzip-cp932」初版リリース

    頻度は少ないもののLinux機でZIPファイルを解凍しようとしても、その中の圧縮ファイルのフォルダ名が文字化けしていることが起因となり、結果としてファイルを解凍出来ないことがある。これらは、Windows環境下同士なら問題にならないことなので、日常的にWindows機を利用している人なら取り敢えずはそちらで対処しUSBメモリー等でLinux機に持ってくれば済むことなのだが、当方の様に端末も含めLinux中心に利用している者にとってはとても困ることになる。そんなことで、Ubuntu環境ではcp932のパス名対応のオプションバッチを当てたunzipが存在するものの当方の利用しているCentOS6様のRPMパッケージはない様だったので、Pythonの標準ライブラリのみでcp932対応のunzipもどきを作成して試た。 ここで公開の「unzip-cp932」はpythonで作成しているので、今時の

    【Linux】文字化けで解凍不能なZIPファイル用「unzip-cp932」初版リリース
    Hash
    Hash 2012/11/30
    windowsからのzipファイルUbuntuで開くとことごとく文字化けしてた件, コレで助かった
  • Sign in - Google Accounts

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Hash
    Hash 2012/10/29
    「須」の文字が入るとエラーになるなと思ったらこんな罠が... UTF-8以外爆発しろ
  • Amazon.co.jp: プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESSプラスシリーズ): 矢野啓介: 本

    Amazon.co.jp: プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESSプラスシリーズ): 矢野啓介: 本
    Hash
    Hash 2011/08/22
    こんなんあった。評価良いみたいだけどどうだろう
  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム[1]。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[2]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPl

  • ExcelでUTF-8エンコーディングされたCSVファイルを開く方法 - 小さい頃はエラ呼吸

    photo credit: gonzalo_ar via photopin cc はじめに このエントリでは、ExcelUTF-8エンコーディングされたCSVファイルを開く方法を紹介します。 Excel VBAのプログラミングのツボとコツがゼッタイにわかる―最初からそう教えてくれればいいのに!Excel2007/2003対応posted with amazlet at 12.12.23立山 秀利 秀和システム 売り上げランキング: 1,346 Amazon.co.jp で詳細を見る 結論 以下のような3つの方法があります。 拡張子をcsvからtxtに変更してから開く。 CSVファイルをBOMつきのUTF-8ファイルに保存しなおしてから開く。 CSVファイルの保存形式をANSIに変更してから開く。 ExcelCSVファイルをShift_JISで開こうとする Excelは、CSVファイル

    ExcelでUTF-8エンコーディングされたCSVファイルを開く方法 - 小さい頃はエラ呼吸
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
    Hash
    Hash 2010/07/13
    なんでSJISはそんなことになったのか。
  • 404 NOT FOUND | Kagayaku

    美織の整形疑惑に終止符!画像40枚の検証でわかったデビューから2022年までの目元や鼻すじの変化を徹底考察

    404 NOT FOUND | Kagayaku
  • バイナリ・ファイルのテキスト化

    インターネットが普及する以前,パソコン通信の時代に,バイナリをテキスト化するishという有名なフリーソフトがありました。今回は,2006年なりのishを作ってみようというものです。バイナリ・ファイルをやり取りする場合,誤動作を避けるためにテキスト化することは多々あります。例えば,メールにファイルを添付する際にはbase64というエンコード形式を使用します。今回は,このbase64エンコード/デコードを使用して,バイナリ・ファイルのテキスト化と復元を行います。といっても,base64そのものを作りこむわけではありません。base64変換の機能は,PHPに用意された関数を使います。すべてをPHPで作り上げることもできますがそれでは芸がないので,VBScriptからPHPスクリプトを呼び出して実行させ,またVBScriptに制御を戻すという小技を勉強してみることにします。この小技を知っていれば,

    バイナリ・ファイルのテキスト化
    Hash
    Hash 2010/06/14
    バイナリをtext化するbase64円コーディング
  • バイナリとテキストの本当の違い : 404 Blog Not Found

    2009年04月09日00:15 カテゴリLightweight LanguagesCode バイナリとテキストの当の違い うーむ、Wikipediaですら「見た目」の違いしか説明していない。 バイナリ - Wikipedia コンピュータが扱うすべてのデータはバイナリデータ(バイトの並び)であり、プレーンテキスト(または単にテキスト)もバイナリデータの一種ではあるが、通常バイナリとテキストは対比して用いられる。テキストとはデータの内容すべてを人間が読んで理解できる (human-readable) 表現形式を指し、バイナリとはそうでない表現形式を指すことが多い。 Binary file - Wikipedia, the free encyclopediaA binary file (.bin) is a computer file which may contain any type

    バイナリとテキストの本当の違い : 404 Blog Not Found
    Hash
    Hash 2010/06/14
    なるほどそうだったのか。"「バイト」と同じく、「パケット」はバイナリーで、これを「テキスト化」するのはかなり難しい。難しいので「テキスト化」はIPではなくTCPという「一つ上の階層」でやっている"
  • 1