並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 1472件

新着順 人気順

文字コードの検索結果361 - 400 件 / 1472件

  • Vimで文字コードを指定する - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

      Vimで文字コードを指定する - Qiita
    • Oracle(オラクル)の文字コードを調べる

      Oracle(オラクル)の文字コードはSQLで確認できます。 日本には複数の文字コードがあります。 各システム間でデータをやり取りする時、 文字コードを統一するか、変換する必要があります。 Oracle(オラクル) の場合、以下のSQLコマンドで確認できます。 SELECT VALUE FROM NLS_DATABASE_PARAMETERS WHERE PARAMETER='NLS_CHARACTERSET' まずは上記のSQLで調べる。ここからスタートです。 <<IT処方箋トップ SearchManトップ>>

      • 文字コードとエンコーディング (2)

        機種依存文字とは JIS X 0208 には未定義領域が存在します。ここに ベンダが勝手に文字を定義したものを機種依存文字と言います。 機種依存文字の種類と文字コードについては http://www2d.biglobe.ne.jp/~msyk/charcode/kisyuizon/index.html が便利です。特に、こちらには Windows 環境がなかったので、 とても参考になりました。 半角カナとは 半角カナとは、JIS X 0201 の右半面にあるカタカナ文字です。 Shift_JIS、EUC-JP では、半角カナを使っても構いません。 しかし、ISO-2022-JP では使ってはいけないのです。 再度確認しておきますが、JIS X 0208 や JIS X 0201 などは 文字の番号を決めている文字集合です。一方、Shift_JIS・ EUC-JP、ISO-2022-JP な

        • MultiTextConverter 文字コード変換ユーティリティ

          Dashboardから簡単にイジェクト。 イジェクトキーがなくとも。 CD/DVDドライブを複数接続していても。 詳しくはこちら。 最終更新日:2008年8月14日 MultiTextConverterについて MultiTextConverterはテキストファイルを変換するためのソフトです。 今、ご使用になっているOS(オペレーティング・システム)とは異なったOSで作成されたテキストファイルは通常、そのまま読み込むことはできません。 改行を表すコードの違いにより行が全てつながってしまったり、漢字を表すコードの違いにより正確に文章を表示することが出来ないなどの問題が発生します。 一部のワープロソフトやエディタなどはこれらを正確に変換することが出来ますが、HTMLなど沢山のファイルがある場合には一つずつ手作業で変換することは容易ではありません。 MultiTextConverterは沢山のフ

          • 日付型のフォーマットにスラッシュを使ってはいけません(文字コードによって値が変わる) - [MySQL MariaDB/SQL] ぺんたん info

            MySQLで日付型(date型)のフォーマットは『2014/07/26』のようなスラッシュではなく、『2014-07-26』のようにハイフンを使います。 スラッシュでも場合によっては動作しますが、 UTF8で指定されたテーブルをSJISなど別の言語で日付抽出するときなどに値が変わります。 場合によっては正しい値が出てしまうのが怖いところです。 [参考記事] 文字コードを指定する方法 [参考記事] PHPでMySQLの文字コードを指定する方法 [参考記事] MySQLでdatetime型(日時)を日付で抽出するSQLの速度比較 次のサンプルはUTF-8にセットされたテーブルでの例です。 『2014-01-01』以降の日付抽出で217件のレコードが抽出されます。 mysql> SELECT count(*) FROM `sample_table` WHERE `sample_time` >=

            • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第4回 互換漢字をめぐる非漢字圏諸国との「波風」

              ● 7年前の4月1日に出されたある提案 前回は互換漢字というものがUCSの中では例外的な存在であり、非漢字圏の国々から厄介者扱いをされていることを述べた。今回はまずその実例を見るところから始めよう。少し前になるが2001年4月1日、WG2にアメリカ代表団が提出した文書番号n2326『Proposal to encode additional grass radicals in the UCS』(草冠をUCSに追加して符号化する提案)という書類だ(図1)[*1]。これは新しい文字をUCSに追加する正式な提案書だ。 図1 アメリカ代表団が2001年4月1日に提案した草冠のバリエーション94文字(n2326『Proposal to encode additional grass radicals in the UCS』) 見てわかるとおり、草冠のさまざまなバリエーションが、じつに94文字も提案さ

              • 文字コードのカオスな世界を整理してみた - A painter and a black cat

                *1…現状どのブラウザでも表示できないっぽい。フォントが用意されていないのかも? 文字セットと符号化方式の関係¶ ここ超重要。 ┏文字セット(JIS) ━━━━━━━━━━┓ ┏文字セット(Unicode) ━━━━━━━━┓ ┃ ┃ ┃ ┃ ┃┌JIS X 0213(JIS2004) ──────┐┃ ┃┌UCS4──────────────┐┃ ┃│ 第三水準 │┃ ┃│ 4byteで表現できる文字の範囲 │┃ ┃│ 第四水準 │┃ どんな文字を ┃│ │┃ ┃│ +10文字 │┃ 取り込むか ┃│ │┃ ┃│ │┃ インプットに ┃│ │┃ ┃│┌JIS X 208(JIS90)─┐ │┃ なってる ┃│┌UCS2───────┐ │┃ ┃││ 第一水準 │ │┃ →→→→→→ ┃││2byteで表現できる │ │┃ ┃││ 第二水準 │ │┃ ┃││文字の範囲 │ │┃ ┃││ │

                • WordPressの文字コード(UTF-8)と改行コード(LF) | セオリコ

                  文字コードとは 文字コードとは、文字に割り振られた固有の番号のこと。 文字コードとは、コンピュータなどの電子媒体において、文章を画像などの図形データとしてではなくテキストの形式で扱う場合に、その各文字(単一の文字でない場合もある)に対して持っている符号(コード)のことである。 文字コード(Wikipedia) コンピュータは、固有の番号をもとに「あいうえお」など人が読める文字に変換して表示しています。 日本語の Web サイトでは「Shift_JIS」「UTF-8」「EUC-JP」のいずれかが使われていて、WordPress は「UTF-8」が標準です。必ずこの文字コードに合わせてください。 もし「Shift_JIS」など別の文字コードで WordPress テーマやプラグインファイルを作成・更新すると、文字化けやエラーの原因となってしまいます。 文字コードをどこで設定するのか HTML

                    WordPressの文字コード(UTF-8)と改行コード(LF) | セオリコ
                  • vimの文字コード自動認識

                    トップページに戻る vimの文字コード自動認識 最終更新日:2013. 3.31 vimは非常に軽量で多機能なエディタですが、多くの文字コードを扱う場合、 標準設定のままではシステムのデフォルト文字コードのUTF-8以外の文字コードのファイルを開いた場合に文字化けを起こすことがあります。 これを回避するための設定を行いましょう。 設定 (1)設定ファイル.vimrcを開きます。 $ vi ~/.vimrc (2)設定ファイル.vimrcに以下のように記述します。 set encoding=utf-8 この設定はvimの内部で使われる文字コードで、複数の文字コードを扱う可能性がある場合は端末のデフォルトの文字コードに設定しておく事を推奨します。 最近のバージョンのLinuxであればUTF-8が標準の文字コードになっているはずです。 この値には、編集するファイル内の全ての文字を表せるエンコーデ

                    • DB2の文字コード設定 | Unofficial DB2 BLOG

                      ※2006/10/16修正:COLLATEのお勧めが間違っていたので修正しました。Unicode以外の場合はIDENTITYがお勧めです。(以前はSYSTEMと書いてしまっていました。ごめんなさい。) marsのメモ(8/4)より: よもやDB2を使うときが来るとは. とりあえず,文字コードをどうしたらいいのかだけ知りたい. というわけで、DB2の文字コードの扱いについて基本的なところを列挙してみます。 まず、DB2はデータベース作成時に"USING CODESET"で文字コードを指定します。表毎には変更できません(例外としてUTF-8以外で作成したデータベースの中にUnicodeの表を作成できる機能があります)。データは必ずそのコードページに変換されて格納されます。つまりSJISを指定して作成されたデータベースにはSJISのコードページで文字が格納されます。 例) CREATE DATA

                      • [改訂新版]プログラマのための文字コード技術入門:書籍案内|技術評論社

                        2018年12月28日紙版発売 2018年12月22日電子版発売 矢野啓介 著 A5判/400ページ 定価2,948円(本体2,680円+税10%) ISBN 978-4-297-10291-3 Gihyo Direct Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ 楽天kobo honto 本書のサポートページサンプルファイルのダウンロードや正誤表など この本の概要 ソフトウェアエンジニアをおもな対象に,文字コードの基本をまとめた解説書。 本書前半では,「文字」そのものと「文字コード」の歴史を少しずつ解きほぐしながら,文字コードの原理原則,変遷,主要な仕様の要点をはじめとした基礎知識を丁寧に解説。さらに後半では,Unicode/UTF-8/UTF-16,日本の文字コード

                          [改訂新版]プログラマのための文字コード技術入門:書籍案内|技術評論社
                        • とほほの文字コード入門 - とほほのWWW入門

                          文字コードとは 主な文字集合と符号化方式 文字集合 ASCII ISO/IEC 646 (ASCIIの国際規格版) JIS X 0201 (半角英数・半角カナ) ISO-8859 (欧州系8ビット文字) ISO/IEC 6429:1992 (制御文字) JIS X 0211 (制御文字) JIS X 0208 (第一水準・第二水準漢字) JIS X 0212 (補助漢字) JIS X 0213 (第三水準・第四水準漢字) 符号化方式 ISO-2022-JP (JISコード) EUC-JP (EUC) Shift_JIS (シフトJIS) JIS系コードマップ Unicode UTF-8 UTF-16 UTF-32 サロゲートペア バイトオーダー BOM(バイトオーダーマーク) その他 合字 組文字 結合文字 異体字 絵文字修飾子 正規化 リンク 文字コードとは 「文字コード」とは、文字をコ

                          • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第8回 インターネット時代と互換漢字

                            ● 国際化ドメイン名で互換漢字が使えない理由 Unicode正規化が規格に盛り込まれている例として、国際化ドメイン名(IDN)が挙げられるだろう。ドメイン名はいわばインターネット上の番地表示だが、従来はラテン文字のaからz(大文字/小文字は区別しない)、数字の0から9、それにハイフン「-」の計37文字だけに限定されていた。国際化ドメイン名とは、これをUnicodeの範囲に拡大し、それにより世界の人々が自分の使っている言語でドメイン名を表現できるようにしようとするものだ。具体的にはインターネットの規格であるRFC 3490~3492の3つで規定されている。 ここでは「Punycode」(RFC 3491[*1])と呼ばれる一定の規則に従って、Unicodeの文字列を現在使われている37文字に変換することにより国際化ドメイン名が実現されている。しかしこの変換をする前に「Nameprep」(RF

                            • JIS漢字コード:JIS補助漢字・第三・第四水準漢字―文字コード入門―

                              JIS X 0212-1990 1990年に公布された6,067字の文字表です。正式名称は「情報交換用漢字符号―補助漢字」になります。(日本規格協会の該当規格情報)。 JIS X 0208系を拡張する規格で、「JIS補助漢字」とも呼ばれます(JIS X 0212のみを単独で使用することはありません)。JIS X 0208に含まれていないものの、日常の国語の文章の表記に用いる文字として必要だと思われる文字を収録しています。 02~11区 非漢字266字 16~77区 漢字5,801字 JIS X 0208に収録される漢字と重なっている漢字はありません。 JIS漢字コードのエンコーディングシステムの一つであるShift_JISで補助漢字を利用することができなかったため、WindowsやMac OSのエンコーディングシステムがShift_JISだった頃は、実質的には規格倒れの文字コードとなりかけ

                              • 文字コードの墓場 - しいしせねっと

                                Last update  日本語には、いろんな文字コードがあります。 ややこしすぎるので、嫌です。 文字集合 エンコード + 文字コード 変換表 基礎知識 文字セット、エンコード(符号化方式)、2種類にわけて、この組み合わせで1つの文字コードになります。Unicodeをベースにしていることもあるのでさらに変換表的なものも加わると恐ろしいぐらいいろいろあります。 文字セットは、JISの場合、区点番号という区(row)と点(cell)と呼ばれる2つのコードを合わせて漢字1文字を指定します。区と点は1バイト目と2バイト目のような関係です。JISの区点はそれぞれ1〜94です。JIS X 0213やUnicodeになると区点では不足するため面(plane)という区点を区別するコードを加え、面区点の3つで区別します。 ISO-10646などでは、面区点でも不足する可能性があるため群(group)とい

                                • 文字コードの変換

                                  入力された文字コードの変換をしましょう。 ユーザが入力する文字は環境によって文字コードが異なることがあります。 文字化け等の原因になるので、掲示板などでは、入力された文字列の文字コードをチェックして、統一するようにしましょう。 文字コードとは コンピュータは、文字や記号を直接扱うことはできないので、文字に数字を割り当てることで処理しています。 この文字や記号と数字の対応のさせ方を決めたものを文字コードと呼びます。 文字コードは恣意的なものなので、JIS、シフトJIS(SJIS)、EUC-JP、UTF-8などいくつかの方式が利用されています。 インターネットでは、メール送受信はJISが使われています。 ホームページではSJISかEUC-JPが多いようですが、国際標準のUTF-8を使っているホームページも多くなっています。 文字コードはいくつかあるため、間違った文字コードを用いると、文字が正し

                                  • 技術志向 | Python 文字コードの判定と変換

                                    以外と知られていない? Python で文字コードを自動変換するロジックです。特別なモジュールはいりません。 適当な文字コードで str から unicode オブジェクトを生成(decode)します。 try して exception なら次の文字コードで変換を試みるという手順です。最後に unicode オブジェクトから指定の文字コードに変換(encode)した str を return します。unicode オブジェクトの生成に全て失敗したら そのまま return します。 import codecs def conv_encoding(data, to_enc="utf_8"): """ stringのエンコーディングを変換する @param ``data'' str object. @param ``to_enc'' specified convert encoding. @

                                    • 文字コードをutf-8にし、改行コードをunixにするVimのコマンドを作る - 結城浩のブログ

                                      背景 Vimを使っている。 Windowsをメインに使っていた時代に作ったShift_JISのファイルがある。 問題 編集するときに「文字コードをutf-8にし、改行コードをunixにする」という操作をよく行う。 解法 コマンドラインから以下のように入力すればいい。 1 2 :set fenc=utf8 :set ff=unix 頻繁に行うなら、以下のように ~/.vimrc に書いておき、コマンドラインから :SetUU と入力すればいい。 ~/.vimrc1 2 3 4 5 function SetUU() set ff=unix set fenc=utf8 endfunction command -nargs=0 SetUU call SetUU()

                                      • Webページの文字コードをUTF-8にする方法(前編)

                                        • [Mac] テキストエディットで開けないファイルも文字コード判定し開けるようにしてくれる「ezText」が無料セール中。 | Appleちゃんねる

                                          ezTextはGUI版のnkfコマンドと言ったところで、 よくWindowsで編集されたファイルを渡され、開こうとすると「書類hogehogeを開けませんでした。テキストエンコーディングUnicode(UTF-8)には対応していません。」という警告が出ることがありますが、ezTextは文字エンコーディングを自動判定し、こういったファイルも開けます。Tags : App ezText Mac セール レビュー 文字コードを推測して再エンコーディングしなおしてくれるユーティリティアプリ「ezText」170円が期間限定で無料セール中です。詳細は以下から。 ezTextはGUI版のnkfコマンドと言ったところで、 よくWindowsで編集されたファイルを渡され、開こうとすると「書類hogehogeを開けませんでした。テキストエンコーディングUnicode(UTF-8)には対応していません。」とい

                                          • WordPress:SOMY.JP » Blog Archive » WordPressの文字コードをUTF-8に for ME1.5

                                            〜 WordPress’s Plug-In,Customize and Hacks 〜 標準の文字コードがEUC-JPになってるので、UTF-8に変更する方法。 まず、WordPressにログイン。 “設定“タブをクリックし、その後、”表示設定“タブをクリック。 “ページとフィードの文字コード“を”EUC-JP“から”UTF-8“に変更。 “設定を更新”ボタンを押して反映させる。 そうすると文字が化けて表示されるはずです。 サーバー上の”wp-config.php“をFTPソフト等でダウンロードして、Winなら秀丸エディタ、MacならmiやJeditなどテキストエディタで開く。 3行目あたりにある文字コード指定部分 mb_internal_encoding("EUC-JP"); を”UTF-8“に変更 mb_internal_encoding("UTF-8"); 次に 18行目

                                            • 【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ

                                              【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ:Tech TIPS Windows OSのコマンドプロンプト上でテキスト処理をする場合、基本的にはShift-JIS(シフトJIS)コードのテキストファイルしか扱えない。その他の文字コードのテキストを扱う場合は、Shift-JISに変換する必要がある。「メモ帳」アプリやnkfコマンドなどで文字コードを変換する方法を解説する。

                                                【Windows 10/11】えっ、UTF-8じゃなくてShift-JISで? お手軽文字コード変換方法まとめ
                                              • Meadow/Emacs memo: 21.6.3 現在の文字コードと異なる文字を置換

                                                URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=meadow&node=input%20method" "MeadowMemo/日本語の入力方法と文字コード"へのコメント(無し) [*****] IME を使うための設定 [*****] 文字の入力手法 効率的に日本語を入力できる IME (SKK) SKK の関連サイトへのリンク集 漢字をひらがなへ変換する機能の紹介 SKK 辞書サーバの紹介 Ruby で書かれた SKK の辞書サーバの紹介 [*****] 句読点を自動的に認識して設定 [***--] 変換単語に注釈を表示 行末に ^M と表示された時の理由と一般的な対処法 旧 jis と新 jis を区別する設定 句読点の統一などを行う text-adjust 半角カタカナを全角カタカナへ変換するコマンド 現在の文字コードと異なる文字を置

                                                • Webページの文字コードをUTF-8にする方法(前編)

                                                  • PHP, PDOでMySQL接続時の文字コード設定

                                                    MySQL接続時に文字コード"utf-8"を指定したい – だって文字化けするんだもんの巻。 "SET NAMES `utf8`" は使っちゃダメよと大垣さんがおっしゃってたのでこれは使わない。 代わりに mysql_set_charset('utf8'); を使うらしいのだけどPDOでは使えない模様。 で次のようにして解決しました。 try { $pdo = new PDO($db_dsn,$db_user, $db_password, array( PDO::MYSQL_ATTR_INIT_COMMAND => "SET CHARACTER SET `utf8`" ) ); } catch (PDOException $e) { die($e->getMessage()); } Google先生にお聞きしてあっちこっちのサイトのコードを試したのでどちらが出典なのか記録を取っておらず不明

                                                      PHP, PDOでMySQL接続時の文字コード設定
                                                    • Unicode ~ユニコードエスケープ形式とは~(文字コード関連) | 読み物 | ウナのIT資格一問一答

                                                      Unicode ~UTF-8、UTF-16との違い~では、Unicodeが世界中で使用される文字を集めた文字集合であり、実際の符号化にはUTF-8やUTF-16といった文字符号化方式(エンコーディング)を使用するというお話をしました。 当然、UTF-8やUTF-16といったエンコーディングが使用できる場合であれば、Unicodeで定義されている文字は問題なく使えるわけですが、それ以外のエンコーディングを使用しなければならない場合はどうでしょう? 例えば、Javaにおけるプロパティファイル(設定情報などを「キー=値」の形式で保存する拡張子が「properties」のファイル)の文字エンコーディングはISO 8859-1を使わなければいけないことになっています。 ISO 8859-1の符号表からもわかるように、ISO 8859-1で扱える文字の種類はごくわずかで、世界中の文字を定義するUnic

                                                      • perl+javascript - ゆの in 文字コード : 404 Blog Not Found

                                                        2008年07月13日16:30 カテゴリLightweight Languages perl+javascript - ゆの in 文字コード いろいろなスケッチがひだまっているようだけど、これがまだなかったので。 Demo ひだまりスケッチx365 来週も見てくださいね! 'n'とかがいい感じです。 まあ、見ての通り単にバイト列を[ X/_]に展開しているだけですが。 _X _ _X / X /X/_ X/__X/X_ / X _/X/__X_X / X X/X/__X_XXX/_/X/X / _/X///_ // X_/XX/X/_/X_/_/ _/ // /_// //X// /__/ _/ X//X/_/ _/ X/ ___/ _ / X// _/ _/ X/XXX_/ _/ X/ X _/ _/ X//_X / X Dan the YunoCoder Server Source

                                                          perl+javascript - ゆの in 文字コード : 404 Blog Not Found
                                                        • 「文字コード」 ~マンガでプログラミング用語解説

                                                          CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                                                            「文字コード」 ~マンガでプログラミング用語解説
                                                          • 文字列の文字コード変換 - phpspot

                                                            $str = $_GET["q"]; $str = mb_convert_encoding($str, "EUC-JP", "auto"); これで、$str を EUC-JP に変換できます。 "auto" を指定すると 元のエンコーディングを自動検出できますが、完璧でもない場合がありますので厳密にしたい場合は

                                                            • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第9回 包摂された字体を区別できる異体字シーケンス

                                                              ● 字形選択子を使って異体字に置き換える 今回はUTS#37に基づいて、どのように異体字シーケンスが規定されているのか詳しく見てみよう。これの符号表現の考え方は、第2部第5回で述べた結合文字を使った合成列と全く同じものだ(第5回図2/第8回図1参照)。合成列では、例えば「ダ」という平仮名は「タ」(U+30BF)に結合文字の濁点(U+3099)を合成させることで「ダ」という文字の形を表現していた。これと同じように、例えば「箸」を表すU+7BB8の後に特定の文字(これを字形選択子と呼ぶ[*1])を並べることで任意の異体字に置き換える。つまり単一の文字で異体字を表すのでなく、符号を並べて表現するので「シーケンス」(並び)と呼ぶわけだ。 図1 異体字シーケンスの仕組み。統合漢字、および拡張領域に収録された漢字と、U+E0100からU+E01EFに収録された字形選択子が合成することで、未定義の文字に

                                                              • Javaで文字列の文字コードを変換する - kanonji’s diary

                                                                String eucjpStr = new String("変換したい文字列".getBytes("EUC_JP"), "EUC_JP"); この例の場合ECU-JPに変換します。変換したい文字列の文字コードは、UTF-8でもShift_JISでも何でも良いです。 たったこれだけの事なんだけど、検索しても全然これだけの事が見つからなくて、無駄に時間費やしちゃって、カッとなって書いた。 愚痴 指定された 文字セット を使用してこの String をバイトシーケンスに符号化し、結果を新規バイト配列に格納します。 http://java.sun.com/javase/ja/6/docs/ja/api/java/lang/String.html#getBytes(java.nio.charset.Charset) 指定された 文字セット を使用して、指定されたバイト配列を復号化することによって、新

                                                                  Javaで文字列の文字コードを変換する - kanonji’s diary
                                                                • convmv -- ファイル名の文字コードを変換するスクリプト

                                                                  スキャン本舗から送られてきた PDF ファイルは、ファイル名が丁寧にも本の題名になっていた。問題はその文字コードが Shift_JIS だったこと。Mac だと問題ないけど、Ubuntu Linux では激しく文字化けする。特に CUI で扱う場合は不便 (本当は英数字だけが理想なのだけど)。そこで、ファイル名の文字コードを変換するスクリプトを探したところ、convmv という Perl スクリプトを見つけた。 convmv - convert filenames to utf8 or any other charset via. ファイル名の文字コードを変換するには インストール convmv - convert filenames to utf8 or any other charset 本家ページから最新版 (1.14) をダウンロードする。あとは展開して PATH の通った所に置く

                                                                  • ユメのチカラ: 日本語文字コードのお話

                                                                    レガシーエンコーディングプロジェクトというのをやっていて昨日その検収があった。 開発そのものは一段落したのだが、まだ、事務処理が残っているので、全て完了というわけではない。 プロジェクトの背景として、Unicodeによるオープンソースソフトウェアの国際化が普及した結果として、日本語処理にいろいろな問題(文字化け)が発生したというのがある。奇妙に聞こえるかもしれない。Unicodeというのはソフトウェアの国際化のためにやっているのではないか?ソフトウェアが国際化すれば文字化けは解消するのではないか?話が逆じゃないのか?という疑問があるだろう。ところがだ、Unicodeによって解決した問題ももちろんあるがそれによって生じた問題もある。 例えば、日本語を表現する文字のエンコーディングとして、シフトJIS、日本語EUC、JISコードなど複数あるが、それぞれのコード変換で文字化けする場合がある。ある

                                                                    • 多Byte文字コードの圧縮 - シリコンの谷のゾンビ

                                                                      ひょんなことから気になって調べてみたので結果を記録. Shift-JISやEUC-JPは日本語を2Byteで表現する.同じテキストをShift-JISで表現しようが,EUC-JPで表現しようがサイズは同じになる. けれど,多バイト文字コードのことなんて考えないASCIIな世界の人たちがLZ法のような辞書式アルゴリズムを実装した場合,1バイト単位で処理するから文字コードの差が出るのではないかとふと思った. そういうときは論よりRun. 同じテキストを異なる文字コードで表現した際の圧縮サイズを比較してみた. 対象テキストは,みんな大好き夏目漱石「こころ」 圧縮アルゴリズムはgzip (LZ77+Huffman) --bestオプション付き 元サイズ kokoro.txt.sjis 368051 byte kokoro.txt.euc 368051 byte 当然同じ. 圧縮後 kokoro.t

                                                                        多Byte文字コードの圧縮 - シリコンの谷のゾンビ
                                                                      • blog.woremacx.com: Emacsで文字コード指定して再読込 (2)

                                                                        Windows 10 の入ったディスクのバックアップが clonezilla で外形的にできることがわかった Posted on Jun 27, 2020 Windows10 が載ってるディスクに破壊的な変更加える前にバックアップしたくて、SystemRescueCd で clonezilla 使ってディスクまるごとイメージ化した(内部的には partimage が使われてる?)。 でこれ、レストアしたら起動する状態まで持っていけるんかな? すんごく不安だ。。。 — woremacx (@woremacx) June 15, 2020 systemrescuecd に同梱されている clonezilla を使ってまるまる取った Windows 10 のバックアップが戻せるか不安で仕方なかったので、VirtualBox に戻せるか試した。 そもそもなぜ clonezilla を試したかったの

                                                                        • Linuxでファイル名の文字コードを変換する(文字化けを直す):while(1) { ;}:So-netブログ

                                                                          ブログトップ Linuxでファイル名の文字コードを変換する(文字化けを直す) [Linux] [編集] Windows のファイルを Linux にコピーしたり、 Linux のディストリビューションの違いなどで、日本語ファイル名の文字が 文字化けを起こすことがあります。 Windows と Linux 間のファイル名の文字化けは、 Windows が CP932 という文字コードを採用しているのに対し、 Linux では最近は UTF-8 を採用していることに由来します。 ちなみに、Windows といえば Shift-JISと思われがちですが、 厳密には CP932 という規格で、Shift-JISを拡張したものです。 (この話は、また後日書きたいと思います) また、Linuxのディストリビューションの違いによるものは、 以前までは EUC-JP がよく使われていましたが、 最近はどの

                                                                          • 言語、文字コード、ダウンロード容量制限

                                                                            言語、文字コードなど 言語 ページは基本的にパソコン向けのサイトと同じようにHTMLで書けば良い。 ドコモ C-HTML、X-HTML au HTML、X-HTML、HDML ソフトバンク HTML、X-HTML 文字コード HTMLでは、ドコモ、au、ソフトバンクともにSJIS(shift_jis)。 X-HTMLではUTF-8に対応。 JavaScript 古い端末では JavaScript を利用できないが、最近は JavaScript 対応端末が増えつつある。 ドコモでは、iモードブラウザ2.0以降(2009年5月発売)で JavaScript に対応。 ソフトバンクでは、2010年夏モデル(944SH、945SH(945SH G))からJavaScriptに対応。 パソコンのサイトが閲覧できるフルブラウザ対応の携帯電話は、フルブラウザを利用すると JavaScript が動作する

                                                                            • miniturbo::Blog 携帯電話での文字コード対応表

                                                                              このリストを見る限り、最近の機種は殆どが対応しているようです。SO506iCがEUC-JPに対応しているのは意外でした。 各社の仕様書を見比べると、Shift JISは全社とも対応していて、DoCoMoのXHTML対応機種に限りUTF-8にも対応していることが記載されていました。また、SoftBankの携帯電話はメール及びウェブの文字コードを手動選択できるようです。各社の仕様書を以下にリンクいたしましたので、ご覧ください。 iモード対応HTMLの概要 iモード対応XHTMLの概要 EZWeb サーバ設定・文字コード指定 SoftBank Developers Support Site なお、検証への誘導をしていただいた真琴さんと、多くの機種を検証していただいたreaさん、サンプルを怪しみながらも協力してくれた僕の友人、それからわざわざコメントorトラックバックしていただいた皆々様方に深く感

                                                                              • MySQL 5.1 系と MySQL 5.5 系の文字コード - make world

                                                                                MySQL をインストールしたら、root のパスワードを設定した後に、文字コードの設定をするが、エラーが発生。しばらく調べてみたら、 MySQL 5.5 系では文字コードの設定方法が変更されていた。 mysql> SHOW VARIABLES LIKE 'char%'; +--------------------------+----------------------------------+ | Variable_name | Value | +--------------------------+----------------------------------+ | character_set_client | utf8 | | character_set_connection | utf8 | | character_set_database | latin1 | | cha

                                                                                  MySQL 5.1 系と MySQL 5.5 系の文字コード - make world
                                                                                • MySQL5の既存DB文字コード変更(latin1からujis) | Wingnotes

                                                                                  フライトシミュレーター「リアルフライト」 値段が高いだけある!リアルなシミュレータです。シミュレーターから始めるのが壊さず上達する一番の近道です。 XOOPS Cube と MySQL 前回の日記XOOPS Cube と PHP5, MySQL5 の相性でも書いたが、新しいバージョンのOS、PHP、MySQLでXOOPSを再構築した時に、MySQL5でのDB作成時にどつぼにはまっていた。 既に作成済みのDBの文字コードを変更する とりあえずXOOPSの動作確認が取れた時のMySQLのデフォルトで作成した文字コードがlatin1のDBで、XOOPSの設定やコンテンツを登録したため、後になって問題が出てきた。 その問題とは、DBをバックアップ(ダンプ:mysqldump)した時に、ダンプファイルをテキストエディタで開くと、文字化けしているのである。無理矢理文字コードを変換すれば日本語で読める文