タグ

japaneseとrubyに関するuchiuchiyamaのブックマーク (14)

  • 文字列の表記揺れをUnicode正規化で簡単に解決する方法 - Qiita

    ユニコード正規化をすると、半角英数字や機種依存文字などの表記が統一できます。 表記ブレが吸収されることで検索性が高まったり、データの比較なども行いやすくなります。 正規化の手法にはNFD, NFC, NFKD, NFKCがありますが、その中でもNFKCという次のような正規化を行う方法をコードを交えて紹介します。 ウ゛ェ → ヴェ ABC → ABC ① → 1 ㊤ → 上 Ⅲ → III ㌶ → ヘクタール ハンカクカナ → ハンカクカナ ﹣ → - ※ 左辺はU+FE63 Small Hyphen-Minus: 小さいハイフンマイナス - → - ※ 左辺はU+FF0D Fullwidth Hyphen-Minus: 全角ハイフンマイナス 動作環境

    文字列の表記揺れをUnicode正規化で簡単に解決する方法 - Qiita
  • 正規表現で全角スペースにマッチさせる方法 - Qiita

    全角スペースを正規表現でマッチさせたいけど、\s だとマッチしない。これは \s や \d といった正規表現の文字クラスの略記法が ASCII の範囲の文字のみを対象 としているからなんです。 ひどいよ… こんなのってないよ… じゃあ、半角スペースと全角スペースの両方にうまくマッチさせるにはどうしたらいいのでしょう。 それでは、「苗字と名前が半角もしくは全角のスペースで区切られた日人の氏名の文字列から 正規表現を使って苗字と名前をそれぞれ取り出す」という例をもとに考えてみましょう。 方法1: 文字クラス内で全角スペースを指定する 文字クラス (角括弧) の中に \s と " " (全角スペース) を並べて指定します。でも正規表現に直接全角スペースを入力するのはなんだか嫌ですね。 方法2: Unicode プロパティの blank を利用する Unicode プロパティ といふものありけり

    正規表現で全角スペースにマッチさせる方法 - Qiita
  • 全角数字を半角数字に変換するお手軽な方法 - Qiita

    s = "0987654321" s.tr!("0-9", "0-9") p s # => 0987654321 NKFとか使わなくても、数字くらいなら、trで変換するのがお手軽。 (カタカナとかになると、全半角で文字数も変わってくるのでtrでは難しい) Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up

    全角数字を半角数字に変換するお手軽な方法 - Qiita
  • [Ruby] 全角カタカナを半角カタカナに変換する - Qiita

    require 'nkf' zen = "カタカナ" puts NKF.nkf('-w -Z4', zen) # => カタカナ -w はUTF-8で出力するオプション. -Z4は全角カタカナを半角カタカナに変換するオプションです. Rubyで全角カタカナを半角カタカナに変換する - Qiita しかし、 NKF は自動で半角カタカナを全角カタカナに変換するようです。 半角カタカナで統一したいところを、半角カタカナで入力すると全角カタカナになってしまうのでは 全角カタカナを半角カタカナに変換していても意味が無いです。 module NKFでオプションをよく読むと -x をつけると 半角カタカナが全角カタカナに自動変換されないようになるみたいです。 require 'nkf' zen = "カタカナ" p NKF.nkf('-w -x -Z4', zen) # => カタカナ han = "

    [Ruby] 全角カタカナを半角カタカナに変換する - Qiita
  • Nokogiriで文字化けを防ぐ - Qiita

    Nokogiriでゴリゴリやってます。やっと使い方分かってきました。 Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んなサイトを対象にしようとすると化けました。ので何とかします。 他にいい方法があったら是非教えて下さい。 (注意:下に追記があります。binaryで読み込んでkconvのtoutf8、charsetにutf-8を指定でほぼ起きなくなりました。) require 'open-uri' require 'nokogiri' uri = "http://www…" page = URI.parse(uri).read charset = page.charset if charset == "iso-8859-1" charset = page.scan(/charset="?([^\s"]*)/i).first.join end document

    Nokogiriで文字化けを防ぐ - Qiita
  • Rack::Utils#escapeがRuby1.9.1だと何かアレな件 : As Sloth As Possible

    sinatraとActiveRecordとERBでBBS作ったのでソースを公開してみる - だるろぐに触発されて俺もBBSを作ってみようと、ここ数日Sinatraをいじっていた。Sinatraさんは最近バージョンアップしてた気がするけど、どうやらちゃんとRuby1.9.1でも動くようだ。素敵。 で、順調に行くかと思ったんだけど、どうにも書き込みのspecが通らない。そこで初めて、POSTやGETでパラメータにマルチバイトの文字列が入ってると何かおかしいことに気付いた。 最初に書いたspecとアプリ側のコードを抜粋。 # coding: utf-8 require 'rubygems' require 'rack/test' require 'routes.rb' #sinatraアプリ set :environment, :test include Rack::Test::Methods

    Rack::Utils#escapeがRuby1.9.1だと何かアレな件 : As Sloth As Possible
  • RMagickで日本語文字列を描画する

    ► 2020 (9) ► 08/02 - 08/09 (1) ► 07/26 - 08/02 (4) ► 07/19 - 07/26 (4) ► 2019 (49) ► 06/09 - 06/16 (1) ► 06/02 - 06/09 (1) ► 05/26 - 06/02 (2) ► 05/19 - 05/26 (3) ► 03/17 - 03/24 (21) ► 03/10 - 03/17 (10) ► 02/03 - 02/10 (5) ► 01/27 - 02/03 (3) ► 01/13 - 01/20 (3) ► 2018 (72) ► 12/30 - 01/06 (3) ► 12/23 - 12/30 (6) ► 12/16 - 12/23 (5) ► 12/09 - 12/16 (3) ► 12/02 - 12/09 (7) ► 11/25 - 12/02 (8) ► 1

    RMagickで日本語文字列を描画する
  • Ruby 1.9 多言語化

    Ruby は US-ASCII はもちろん、US-ASCII 以外の文字エンコーディングもサポートしています。 文字列の内部表現のエンコーディングは固定されておらず、 プログラマは目的に応じて使用するエンコーディングを選ぶことができます。 同じプロセスの中で異なるエンコーディングの文字列が同時に存在することができます。 全ての String や Regexp などのオブジェクトは自身のエンコーディング情報を保持しています。 これにより各オブジェクト内の文字を適切に取り扱うことができます。 後述のマジックコメントでスクリプトエンコーディングを指定すると、 Ruby スクリプトに非 ASCII 文字を使うことができます。(magic comment) 文字列リテラルや正規表現リテラルだけでなく変数名、メソッド名、クラス名などにも 非 ASCII 文字を使うことができます。ただし文字列リテラル・

  • RubyFlow-ja

    RubyFlowを翻訳してみるプロジェクト。間違いや誤訳の指摘はコメントでどうぞ。The ongoing hackfest at http://guides.rails.info/ to create up to date and very in depth documentation on the various components of Rails is quickly becoming a valuable resource while the official wiki quickly grows out of date with stale information and dead links. Is it time for an official wiki hackfest to bring it up to snuff or is it something that sho

  • 漢字だけを抜き出す Ruby の正規表現 - Rails で行こう! - Ruby on Rails を学ぶ

    すべての漢字を取り出す正規表現 がとても参考になった。結局次のような単純なコードでよいらしい。 (文字コードは UTF-8 を仮定) $KCODE = 'u' require 'jcode' puts 'aA0&!漢字です'.gsub(/[^一-龠]/, '') # => "漢字" ミソは、$KCODE = 'u' して require 'jcode' しないといけないということか。どうも上の正規表現は UTF-8 以外では使えないらしいのだが、まあいまどき、よい子のみなさんは UTF-8 以外なんて使ってませんよね・・・??

    漢字だけを抜き出す Ruby の正規表現 - Rails で行こう! - Ruby on Rails を学ぶ
  • Ruby/Romkan

    Ruby/Romkan is a Romaji/Kana conversion library for Ruby. It can convert a Japanese Romaji string to a Japanese Kana string or vice versa. Tha latest version of Ruby/Romkan is available at <URL:/ruby-romkan/> . Charcode Set Ruby's charcode to EUC-JP. $KCODE="e" API String#to_kana Convert a Kunrei or Hepburn Romaji string into a Kana string. String#to_roma Conver a Hiragana string into a Hepburn Ro

  • 危ない直球notビーンボール

    まだまだですが、日語化始めました。まずは、メインの翻訳作業から。 日語リソース070810 上のファイルを落として所定の場所(langの下、および、vender/plugin/retro_i18n/lang/の下です)に入れて貰って app/controller/application.rbの 52行目(r:166) RetroI18n.locale = :ja_JP を、こうしてください。 日語になるはずです。 参考 > http://retro.jong.gr.jp まだまだ翻訳一部ですので、英語が目につくとは思いますが、気長に。& 手助けも募集中です。(_o_) コメント、ないし、メール(shachikk アット gmail.com)まで送って抱ければ。うれしいです。

    uchiuchiyama
    uchiuchiyama 2007/08/10
    Rubyで書かれたバグトラッキングシステムRetrospectivaの日本語翻訳リソース
  • 2007-05-20

    $ sudo gem install refe $ wget http://ns103.net/~arai/ruby/refe.el $ sudo cp refe.el /usr/share/emacs/site-lisp/ $ vi .emacs (require 'refe) $ export PATH=$PATH:/var/lib/gems/1.8/bin そのままではrefeが使えなかったのでPATHを通してみました 使えるようになったのですが日語が文字化けします。どうもEUCで表記されるのが問題のようですので、UTF-8化をはかります。 12c12 < --- > require 'iconv' 22c22 < str --- > Iconv.iconv("UTF-8","EUC-JP",str)上記のパッチ(searcher.patchとでも名づけますか)をsearcher.

    2007-05-20
  • ImageMagickについて日本語の文字を画像に合成したいしたい。

    質問者 初心者 投稿日 10/16(木) 17:23:46 Linuxサーバ(TurboLinux8WS プロモ版)にImageMagick 5.5.7-10をインストールしました。 Annotateを使って、日語の文字を画像に合成したいのですが、うまくいきません。 検索してみたのですが、たどり着けませんでした。 合成はPerlMagickからです。 どなたか、成功された方はいませんでしょうか? Perlのサンプルスクリプトや、 参考になる事を教えていただけないでしょうか? よろしくお願いします。 プロバイダ参照:自宅サーバ サーバのOS:UNIXサーバ パソコンのOS:WinNT系 エディタ: FTPソフト: サーバ移転:していない 改造:していない CGI習熟度:middle 回答者 やまだ [削除] 投稿日 10/18(土) 01:16:51 Here we annotate an

  • 1