タグ

encodeに関するkicchomu3のブックマーク (20)

  • 第33回 enc2xs:標準の文字コード表にはない文字を変換する | gihyo.jp

    Encodeを使っても文字化けするとき Encodeは特定のエンコーディングにしたがって配列されたバイナリを「文字列」に置き換えるためのモジュールですが、かならずしもすべてのエンコーディングがあらゆるバイナリの組み合わせに対応しているわけではありません。 たとえば、「⁠シフトJIS」環境における機種依存文字の例としてよく取り上げられる丸付き数字をEncodeのお作法通りにdecode、encodeする場合、「⁠シフトJIS」だからと思って安易にshiftjis系列のエンコーディングでdecodeしてしまうと、丸付き数字のマッピングデータがないため「?@」のように文字化けを起こしてしまいます。 use strict; use warnings; use Encode; my $binary = pack('C*', 0x87, 0x40); # ①; my $string = decode(

    第33回 enc2xs:標準の文字コード表にはない文字を変換する | gihyo.jp
  • Encodeでラクラク日本語処理 - JPerl Advent Calendar 2009

    こんにちは!ラブプラスとときメモ4の狭間で揺れ動いているxaicronです!! 今日は日でプログラムを書いていたら避けては通れない気がする、Encodeの話をしようと思います! はじめに まず、この記事を読む前に、Perlのバージョンの確認をしてください。以下のようにやればバージョンが表示されます。 % perl -v ここで、5.8.1より下の数字ができてきた方は、Perlのバージョンアップをしてください。5.8.1より下のバージョンでは、Perlの内部文字コードが安定していないので、いい感じになりません。できれば5.8.8以上のバージョンを使いましょう。 それから、文字コードってなによって人も適当にWikiとかで調べてから読んだ方がいいと思います!! Encode.pm Encodeは昔のjcode.plやJcode.pmに代わる、現在の文字コード処理のスタンダードModuleです。

  • jocode.pl, Jcode.pm, Encode.pmのパフォーマンス比較/一番速いのはどれ?

    全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C言語 / C++ 6.検索エンジン&SEO 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.パソコン 13.Berkeley DB 14.その他技術系 15.企画 16.スマートフォン 17.鑑賞 18.皆声.jpニュース 19.インターネット業界 20.運用マニュアル(自分用) 21.技術系以外実用書 22.料理 23.ALEXA 24.アニメ 25.会計 26.漫画 27.設計書 28.色々サイト作成 29.サーバー 30.自分専用 31.生活 32.OP/ED/PV 33.ゲーム 34.DB整備 35.新規開始作品紹介 36.英語圏の話題 37.大道芸 38.映画 39.PHP 40.ダイエット 41.Mac 42.JavaScript 43.MySQ

  • Unicode Normalization in SQL

    I’ve been peripherally aware of the need for unicode normalization in my code for a while, but only got around to looking into it today. Although I use Encode to convert text inputs into Perl’s internal form and UTF-8 or an appropriate encoding in all my outputs, it does nothing about normalization. What’s normalization you ask? Well, UTF-8 allows some characters to be encoded in different ways. F

    Unicode Normalization in SQL
  • Perlで日本語文字列が文字化けしてるかどうか推測する&修復する - *「ふっかつのじゅもんがちがいます。」withぬこ

    ちょっと最近Buzzurlに自作スクリプトか何かで、大量の二重エンコード文字列を含むブックマークが投稿されたので対策のために調べてみたことのまとめ。<追記>id:miyagawaさんのブクマで Encode::DoubleEncodedUTF8 というモジュールを教えてもらいました。調べたら作者もid:miyagawaさん。二重エンコード是正にはこちらを使うようにしましょう。 でもこれ"二重エンコード perl utf8"とかでぐぐったけど見つからなかった…。id:miyagawaさんのブログとかもっと検索に引っかかるべきだと思うのだが。 PerlでUTF8文字列を使うときの原則 PerlでUTF8文字列を扱うならば、Encodeの神であるところのid:dankogaiが何度も何度も口をすっぱくして言っている次の原則に従わなければならない。そうしないとすごく不愉快な目にあう。 入り口で d

    Perlで日本語文字列が文字化けしてるかどうか推測する&修復する - *「ふっかつのじゅもんがちがいます。」withぬこ
  • 波ダッシュ問題: 朗読デー多ベース 別館

    perlモジュールの対応 sjisで0x8160(波ダッシュ)の文字列をutf8に変換してみた Encode::decode 更にutf8::encode → 0xE3809C(波ダッシュ) Encode::from_to → 0xE3809C Jcode::convert → 0xE3809C utf8で0xE3809C(波ダッシュ)の文字列をsjisに変換してみた utf8::decode後Encode::encode → 0x8160(波ダッシュ) Encode::from_to → 0x8160 Jcode::convert → 0x8160 utf8で0xEFBD9E(全角チルダ)の文字列をsjisに変換してみた utf8::decode後Encode::encode → 0x3F(?) Encode::from_to → 0x3F Jcode::convert → 0x3F 対

  • Ring

    Ringとは、リクルートグループ会社従業員を対象にした新規事業提案制度です。 『ゼクシィ』『R25』『スタディサプリ』など数多くの事業を生み出してきた新規事業制度は、 1982年に「RING」としてスタートし、1990年「New RING」と改定、そして2018年「Ring」にリニューアルしました。 リクルートグループの従業員は誰でも自由に参加することができ、 テーマはリクルートの既存領域に限らず、ありとあらゆる領域が対象です。 リクルートにとって、Ringとは「新しい価値の創造」というグループ経営理念を体現する場であり、 従業員が自分の意思で新規事業を提案・実現できる機会です。 Ringフロー その後の事業開発手法 Ringを通過した案件は、事業化を検討する権利を得て、事業開発を行います。 さまざまな事業開発の手法がありますが、例えば既存領域での事業開発の場合は、 担当事業会社内で予算や

  • 第12回■主要言語別:入力値検証の具体例

    これまで2回にわたってWebアプリケーションにおける入力値検証とセキュリティ対策の関係を説明してきた。入力値検証はセキュリティ上の根的対策ではないが,保険的な対策として効果が期待でき,特に制御コードや不正な文字エンコーディングによる攻撃対策には有効であることを説明した。 今回は,Webアプリケーション開発によく使われる4種類の言語(PerlPHPJavaASP.NET)に関して,入力時処理の具体例を示す。ここで取り上げる「入力時処理」とは以下の内容を含んでいる。 文字エンコーディングの検証文字エンコーディングの変換入力値検証 Perlによる実装の方針 Perl言語はバージョン5.8から内部文字エンコーディングとしてUTF-8をサポートし,文字単位での日語処理が可能だ。文字エンコーディング処理にはEncodeモジュールを使用する。入力値検証には正規表現を用いるのが便利だ。 ■文字エ

    第12回■主要言語別:入力値検証の具体例
  • perl - EncodeでXSSを防ぐ : 404 Blog Not Found

    2009年03月03日19:00 カテゴリLightweight Languages perl - EncodeでXSSを防ぐ 良記事。 第7回■文字エンコーディングが生み出すぜい弱性を知る:ITpro だけど、問題点のみ具体例があって、対策にないのが片手落ちに感じられたので、その点を補足。 結論だけ言ってしまえば、Perlなら以下の原則を守るだけです。 404 Blog Not Found:perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これが

    perl - EncodeでXSSを防ぐ : 404 Blog Not Found
  • 今日のCPANモジュール(跡地) 目次

    Redirecting… Click here if you are not redirected.

  • perl - Encode 中級 : 404 Blog Not Found

    2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級 以前書いた 404 Blog Not Found:perl - Encode 入門 は大好評でしたが、 ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。 という時代に完全対応するには、入門以上の知識がちょっと必要になります。 例えば、blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

    perl - Encode 中級 : 404 Blog Not Found
  • 404 Blog Not Found:perl tips - Encodeを速く使う方法

    2007年04月23日01:30 カテゴリLightweight LanguagesTips perl tips - Encodeを速く使う方法 はっきり言ってこれはフェアではない。 みかログ: ErlangとPerlの速度比較 Perl側は,Encodeが遅い. Encode::from_toがinplaceでコンバートしてしまうために,直前に文字列コピーがあるのも影響しているのかも なぜなら、Encode::from_to()は速度ではなく、安全性に最適化しているから。 そもそもはじめからUTF-8、それもutf8フラグがたっている文字列にfrom_toを使うのはばかげている。 for(my $i = 0; $i < 0xffff; $i++) { my $str2 = $str; Encode::from_to($str2, "UTF-8", "Shift_JIS"); } は単に

    404 Blog Not Found:perl tips - Encodeを速く使う方法
  • JIS X 0213:2004(JIS2004) で本当に文字化けする文字

    とします。Perl で文字コードを操作する方法は、Encode.pm と旧Jcode.pm (0.8系)がメジャーどころなので、その2つについて調査しました。Encode.pm に関しては、Encode::JP と Encode::JIS2K を対象としました。 まず結論から。Encode::JIS2K を使う限り、文字化けする SJIS コードは以下の35文字です。 JIS2004 で追加された10文字:879F 889E 9873 989E EAA5 EFF8 EFF9 EFFA EFFB EFFC カ行に半濁音(゜)を付けた文字など一部の文字: 82f5 82f6 82f7 82f8 82f9 8397 8398 8399 839a 839b 839c 839d 839e 83f6 8663 8667 8668 8669 866a 866b 866c 866d 866e 8685 8

  • EncodeモジュールでのMIME Encode - [ぴ](2006-12-15)

    _ [Perl] EncodeモジュールでのMIME Encode Encodeモジュールで文字コードの変換ができるが、MIMEエンコードをするには以下のようにすればよい。 use Encode; encode('MIME-Header-ISO_2022_JP', $subject) [EncodeモジュールでのMIME Encodeより引用] そうだったノカー C:\> perl -MEncode -e "print encode('MIME-Header-ISO_2022_JP', decode('cp932', 'テスト'))" =?ISO-2022-JP?B?GyRCJUYlOSVIGyhC?= うん。 C:\> perl -MEncode -e "print encode('MIME-Header-ISO_2022_JP', decode('cp932', '主人がオオアリクイに

    EncodeモジュールでのMIME Encode - [ぴ](2006-12-15)
  • perl - Encode::Alias does not realias canonicals : 404 Blog Not Found

    2006年11月19日22:30 カテゴリLightweight Languages perl - Encode::Alias does not realias canonicals 全国のPerl Mongerのみなさんこんばんわ。Encode Maintainerの弾でございます。 非常に稀ながら、知っていないとbugと勘違いするfeature (少なくとも undocument だった!) があったのでお知らせします。 以下のtest scriptをご覧下さい。 use strict; use warnings; use Encode; use Encode::Alias; use Test::More tests => 3; define_alias( qr/sjis$/i => '"cp932"' ); # Look here! my $char = "\x{FF5E}"; my

    perl - Encode::Alias does not realias canonicals : 404 Blog Not Found
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • Perl vs Windows改行コード - 2006-11-15 - D-5 出張版

  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • perl - Encode::from_to() and fallback options : 404 Blog Not Found

    2006年05月21日12:00 カテゴリLightweight Languages perl - Encode::from_to() and fallback options ゆうすけさん、いつも詳細なレビューありがとうございます。 [Perl] Encode::FB_XMLCREFでコード変換に失敗&対策 ゆうすけブログ /ウェブリブログ FB_XMLCREF が利用できないバージョンが確認できました。 が、ちょっと事実誤認があるので。 これ、単に、 2.12までEncode::from_to($str, $from, $to, $check)は、decode()の時にもencode()を$checkの値を使っていたが、 2.13以降では、encode()時にのみ$checkの値を適用する という仕様変更に伴うものです。これのきっかけは、miyagawa君からの報告でした。 ふたたび

    perl - Encode::from_to() and fallback options : 404 Blog Not Found
  • Encode と UnicodeJapanese - Ceekz Logs

    昨年の半ばから、日語変換には Unicode::Japanese を使っていたわけですが、よく考えると、単純に UTF-8 EUC SJIS 間の変換にしか使わないので、標準モジュール(Perl 5.8)である Encode を使うことにした。 自分の環境や使い方では、なんと Unicode::Japanese より Encode の方が、だいたい 10分の1 の CPU時間 で処理できることがわかった。 ただ、問題が無い事も無く、文字コードを判定して変換するのが上手く行かない場合が結構多い。 use Encode; use Encode::Guess qw/ euc-jp shiftjis 7bit-jis /; Encode::from_to($value, 'Guess', 'euc-jp'); こんな風に書けば、一般的には文字コードを判定して変換することができる(ほにゃららを E

  • 1