[B! japanese][ruby] uchiuchiyamaのブックマーク

uchiuchiyama id:uchiuchiyama

japaneseとrubyに関するuchiuchiyamaのブックマーク (14)

文字列の表記揺れをUnicode正規化で簡単に解決する方法 - Qiita
ユニコード正規化をすると、半角英数字や機種依存文字などの表記が統一できます。表記ブレが吸収されることで検索性が高まったり、データの比較なども行いやすくなります。正規化の手法にはNFD, NFC, NFKD, NFKCがありますが、その中でもNFKCという次のような正規化を行う方法をコードを交えて紹介します。ウ゛ェ → ヴェＡＢＣ → ABC ① → 1 ㊤ → 上 Ⅲ → III ㌶ → ヘクタールﾊﾝｶｸｶﾅ → ハンカクカナ ﹣ → - ※ 左辺はU+FE63 Small Hyphen-Minus: 小さいハイフンマイナス－ → - ※ 左辺はU+FF0D Fullwidth Hyphen-Minus: 全角ハイフンマイナス動作環境
uchiuchiyama 2016/06/01
japanese

ruby

unicode

library

gem
リンク
正規表現で全角スペースにマッチさせる方法 - Qiita
全角スペースを正規表現でマッチさせたいけど、\s だとマッチしない。これは \s や \d といった正規表現の文字クラスの略記法が ASCII の範囲の文字のみを対象としているからなんです。ひどいよ… こんなのってないよ… じゃあ、半角スペースと全角スペースの両方にうまくマッチさせるにはどうしたらいいのでしょう。それでは、「苗字と名前が半角もしくは全角のスペースで区切られた日本人の氏名の文字列から正規表現を使って苗字と名前をそれぞれ取り出す」という例をもとに考えてみましょう。方法1: 文字クラス内で全角スペースを指定する文字クラス (角括弧) の中に \s と "　" (全角スペース) を並べて指定します。でも正規表現に直接全角スペースを入力するのはなんだか嫌ですね。方法2: Unicode プロパティの blank を利用する Unicode プロパティといふものありけり
uchiuchiyama 2016/01/26
ruby

japanese

regexp

reference
リンク
全角数字を半角数字に変換するお手軽な方法 - Qiita
s = "０９８７６５４３２１" s.tr!("０-９", "0-9") p s # => 0987654321 NKFとか使わなくても、数字くらいなら、trで変換するのがお手軽。（カタカナとかになると、全半角で文字数も変わってくるのでtrでは難しい） Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you can do with signing up
uchiuchiyama 2015/05/05
ruby

development

japanese
リンク
[Ruby] 全角カタカナを半角カタカナに変換する - Qiita
require 'nkf' zen = "カタカナ" puts NKF.nkf('-w -Z4', zen) # => ｶﾀｶﾅ -w はUTF-8で出力するオプション. -Z4は全角カタカナを半角カタカナに変換するオプションです． Rubyで全角カタカナを半角カタカナに変換する - Qiita しかし、 NKF は自動で半角カタカナを全角カタカナに変換するようです。半角カタカナで統一したいところを、半角カタカナで入力すると全角カタカナになってしまうのでは全角カタカナを半角カタカナに変換していても意味が無いです。 module NKFでオプションをよく読むと -x をつけると半角カタカナが全角カタカナに自動変換されないようになるみたいです。 require 'nkf' zen = "カタカナ" p NKF.nkf('-w -x -Z4', zen) # => ｶﾀｶﾅ han = "
uchiuchiyama 2015/05/05
ruby

development

japanese
リンク
Nokogiriで文字化けを防ぐ - Qiita
Nokogiriでゴリゴリやってます。やっと使い方分かってきました。 Nokogiriだとデフォルトでも割と文字化けしないなと思ったんですがさすがに色んなサイトを対象にしようとすると化けました。ので何とかします。他にいい方法があったら是非教えて下さい。（注意：下に追記があります。binaryで読み込んでkconvのtoutf8、charsetにutf-8を指定でほぼ起きなくなりました。） require 'open-uri' require 'nokogiri' uri = "http://www…" page = URI.parse(uri).read charset = page.charset if charset == "iso-8859-1" charset = page.scan(/charset="?([^\s"]*)/i).first.join end document
uchiuchiyama 2013/02/16
ruby

japanese

html
リンク
Rack::Utils#escapeがRuby1.9.1だと何かアレな件 : As Sloth As Possible
sinatraとActiveRecordとERBでBBS作ったのでソースを公開してみる - だるろぐに触発されて俺もBBSを作ってみようと、ここ数日Sinatraをいじっていた。Sinatraさんは最近バージョンアップしてた気がするけど、どうやらちゃんとRuby1.9.1でも動くようだ。素敵。で、順調に行くかと思ったんだけど、どうにも書き込みのspecが通らない。そこで初めて、POSTやGETでパラメータにマルチバイトの文字列が入ってると何かおかしいことに気付いた。最初に書いたspecとアプリ側のコードを抜粋。 # coding: utf-8 require 'rubygems' require 'rack/test' require 'routes.rb' #sinatraアプリ set :environment, :test include Rack::Test::Methods
uchiuchiyama 2011/05/11
ruby

rails

japanese

sinatra
リンク
RMagickで日本語文字列を描画する
► 2020 (9) ► 08/02 - 08/09 (1) ► 07/26 - 08/02 (4) ► 07/19 - 07/26 (4) ► 2019 (49) ► 06/09 - 06/16 (1) ► 06/02 - 06/09 (1) ► 05/26 - 06/02 (2) ► 05/19 - 05/26 (3) ► 03/17 - 03/24 (21) ► 03/10 - 03/17 (10) ► 02/03 - 02/10 (5) ► 01/27 - 02/03 (3) ► 01/13 - 01/20 (3) ► 2018 (72) ► 12/30 - 01/06 (3) ► 12/23 - 12/30 (6) ► 12/16 - 12/23 (5) ► 12/09 - 12/16 (3) ► 12/02 - 12/09 (7) ► 11/25 - 12/02 (8) ► 1
uchiuchiyama 2010/07/18
ruby

japanese

development

font
リンク
Ruby 1.9 多言語化
Ruby は US-ASCII はもちろん、US-ASCII 以外の文字エンコーディングもサポートしています。文字列の内部表現のエンコーディングは固定されておらず、プログラマは目的に応じて使用するエンコーディングを選ぶことができます。同じプロセスの中で異なるエンコーディングの文字列が同時に存在することができます。全ての String や Regexp などのオブジェクトは自身のエンコーディング情報を保持しています。これにより各オブジェクト内の文字を適切に取り扱うことができます。後述のマジックコメントでスクリプトエンコーディングを指定すると、 Ruby スクリプトに非 ASCII 文字を使うことができます。(magic comment) 文字列リテラルや正規表現リテラルだけでなく変数名、メソッド名、クラス名などにも非 ASCII 文字を使うことができます。ただし文字列リテラル・
uchiuchiyama 2008/10/05
ruby

reference

japanese
リンク
RubyFlow-ja
RubyFlowを翻訳してみるプロジェクト。間違いや誤訳の指摘はコメントでどうぞ。The ongoing hackfest at http://guides.rails.info/ to create up to date and very in depth documentation on the various components of Rails is quickly becoming a valuable resource while the official wiki quickly grows out of date with stale information and dead links. Is it time for an official wiki hackfest to bring it up to snuff or is it something that sho
uchiuchiyama 2008/04/22
ruby

news

japanese
リンク
漢字だけを抜き出す Ruby の正規表現 - Rails で行こう！ - Ruby on Rails を学ぶ
すべての漢字を取り出す正規表現がとても参考になった。結局次のような単純なコードでよいらしい。（文字コードは UTF-8 を仮定) $KCODE = 'u' require 'jcode' puts 'aA0&！漢字です'.gsub(/[^一-龠]/, '') # => "漢字" ミソは、$KCODE = 'u' して require 'jcode' しないといけないということか。どうも上の正規表現は UTF-8 以外では使えないらしいのだが、まあいまどき、よい子のみなさんは UTF-8 以外なんて使ってませんよね・・・？？
uchiuchiyama 2007/12/10
ruby

regexp

japanese

tips
リンク
Ruby/Romkan
Ruby/Romkan is a Romaji/Kana conversion library for Ruby. It can convert a Japanese Romaji string to a Japanese Kana string or vice versa. Tha latest version of Ruby/Romkan is available at <URL:/ruby-romkan/> . Charcode Set Ruby's charcode to EUC-JP. $KCODE="e" API String#to_kana Convert a Kunrei or Hepburn Romaji string into a Kana string. String#to_roma Conver a Hiragana string into a Hepburn Ro
uchiuchiyama 2007/08/15
ruby

nlp

japanese

library
リンク
危ない直球notビーンボール
まだまだですが、日本語化始めました。まずは、メインの翻訳作業から。日本語リソース070810 上のファイルを落として所定の場所(langの下、および、vender/plugin/retro_i18n/lang/の下です)に入れて貰って app/controller/application.rbの 52行目(r:166) RetroI18n.locale = :ja_JP を、こうしてください。日本語になるはずです。参考 > http://retro.jong.gr.jp まだまだ翻訳一部ですので、英語が目につくとは思いますが、気長に。& 手助けも募集中です。(_o_) コメント、ないし、メール(shachikk アット gmail.com)まで送って抱ければ。うれしいです。
uchiuchiyama 2007/08/10
Rubyで書かれたバグトラッキングシステムRetrospectivaの日本語翻訳リソース

ruby

japanese

bts
リンク
2007-05-20
$ sudo gem install refe $ wget http://ns103.net/~arai/ruby/refe.el $ sudo cp refe.el /usr/share/emacs/site-lisp/ $ vi .emacs (require 'refe) $ export PATH=$PATH:/var/lib/gems/1.8/bin そのままではrefeが使えなかったのでPATHを通してみました使えるようになったのですが日本語が文字化けします。どうもEUCで表記されるのが問題のようですので、UTF-8化をはかります。 12c12 < --- > require 'iconv' 22c22 < str --- > Iconv.iconv("UTF-8","EUC-JP",str)上記のパッチ(searcher.patchとでも名づけますか)をsearcher.
uchiuchiyama 2007/06/27
ruby

reference

japanese

tips
リンク
ImageMagickについて日本語の文字を画像に合成したいしたい。
質問者初心者投稿日 10/16(木) 17:23:46 Linuxサーバ（TurboLinux8WS プロモ版）にImageMagick　5.5.7-10をインストールしました。 Annotateを使って、日本語の文字を画像に合成したいのですが、うまくいきません。検索してみたのですが、たどり着けませんでした。合成はPerlMagickからです。どなたか、成功された方はいませんでしょうか？ Perlのサンプルスクリプトや、参考になる事を教えていただけないでしょうか？よろしくお願いします。プロバイダ参照：自宅サーバサーバのＯＳ：UNIXサーバパソコンのＯＳ：WinNT系エディタ：ＦＴＰソフト：サーバ移転：していない改造：していないＣＧＩ習熟度：middle 回答者やまだ [削除] 投稿日 10/18(土) 01:16:51 Here we annotate an
uchiuchiyama 2007/05/22
perl

image

japanese

font

ruby

graph

tips
リンク
1