タグ

unicodeに関するrikuoのブックマーク (11)

  • アプリの国際化の舞台裏

    アプリの国際化は単に表示されるテキストの翻訳にとどまるものではありません。 このセッションでは、開発者とユーザーの双方の視点から、様々な地域で使われる iOS アプリの開発を通して得られた具体的な事例を踏まえ、アプリの国際化で必要となる技術的な知識、避けては通れない問題とその対策、そして今後のアプリ開発における課題について検討します。 自分のアプリを海外のユーザーにも使ってもらいたい。アプリを翻訳したのにあまり使ってもらえない。あるいは、海外のアプリで日語が使えないのは何故なのか。海外のアプリの挙動がおかしいけれど何故そうなるのかわからない。そんな疑問を持った方を対象とします。 このセッションでは以下のトピックについて扱う予定です - Unicode についての知識と絵文字の貢献 - 日本語入力や複雑な文字の問題 - ユーザーインターフェイスとコンテンツの国際化 - 開発チームの国際化

    アプリの国際化の舞台裏
  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
  • 榊の字形について|小松 弘幸|note

    「榊」という文字は、同じ文字なのに使うソフトウェアによって「木示申」と「木ネ申」のどちらも表示されることがあります。それはなぜなのか、どちらかを明示する方法はあるのかを調べました。 まとめ・榊の字形には「木示申」と「木ネ申」がある。 ・JIS の標準が「木ネ申」から「木示申」に変化したため、使うフォントによって字形が異なる。 ・Unicode では、榊 (U+698A) の字形は使用言語によって異なる。日語では「木示申」、中国語では「木ネ申」 ・Unicode では、「木示申」と「木ネ申」は異体字 (IVS) によっても明示できる。 「木ネ申」を明示的に表示させるには、 <span lang="zh">榊</span> U+698A U+E0100 U+698A U+E0102のいずれかでできる。ただし、結局は使用するフォントに依存する。 はじめに あるツイートがきっかけで、榊の特定の字

    榊の字形について|小松 弘幸|note
  • 千夜一夜かからずに、アラビア語Unicodeをマスターする! - Qiita

    !مرحبا  アラビア語にようこそ! 今では、世界中の様々な国からユーザーが自分のサイトへ訪れます。 アラビア語を話す人は、420,000,000人です。アラビア語は(ヘブライ語とペルシャ語とモルディブ語も)右から左に記述する言語です。なので国際化 (internationalization/i18n) が難しいです。私は、アラビア語のクラスを受講する前は、普通のウェブのプログラマーでした。クラスの受講後、私は、色々なFOSSのプログラムにアラビア語の国際化の為プルリクを送りました。これは私が初めての日語で書いたプログラミングの記事です。 アラビア文字 日語と同じなテクスト/ストリングと、CSSの writing-modeと縦書きか横書きか書くできます。 アラビア語で右から書くのに、ストリングの一番目のchar型が単語の1番目の文字です。 مرحبا「マルハバ(こんにちは)」の中を見

    千夜一夜かからずに、アラビア語Unicodeをマスターする! - Qiita
  • 12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア

    Androidのテキスト処理を担当しているのなさんと、UnicodeやUnicode絵文字、テキスト処理の複雑さ、文字トリビアなどについて話をしました。出演者: のな (@ttuusskk)、Rui Ueyama (@rui314) https://turingcomplete.fm/12 ハッシュタグは#tcfmです。 TCFMはサポーターの投げ銭によって収益を上げています。このコンテンツに課金してもいいよという方はぜひクリエイター支援サイトPatreonから登録してご協力ください。 イントロ (0:00) 自分の読めない言語のテキスト処理は大変 (1:28) MMDDYYYYとDDMMYYYYの違いによる国際化バグ (3:07) Left-to-right言語とright-to-left言語 (5:23) アラビア語と英語のハイフネーション (6:15) 日語の禁則処理 (7:19)

    12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア
  • 特殊顔文字に使われている謎の文字よ、お前は一体何者なのか – たぬきフォント

    調査方法 顔文字検索の人気サイト『顔文字屋』に掲載されている、週間顔文字ランキング(2017/11/5~2017/11/11)から上位300種類をリストアップし、そこに使われている各文字について、Unicodeのどのブロックに属しているかを調べました。 三(‘ω’)三( ε: )三(.ω.)三( :3 )三(‘ω’)三( ε: )三(.ω.)三( :3 )ゴロゴロゴロ ( ๑❛ᴗ❛๑)۶♡٩(๑❛ᴗ❛๑ ) ( *¯ ³¯*)♡ㄘゅ ┌(┌^o^)┐ホモォ… ┏○)) アザ━━━━━━━━ス! ((〃’・∀・)ノ”)-ω-`*)ヨシヨシ (っ’-‘)╮=͟͟͞͞♡好き♡ ♡(*>ω<)ω<*)ギュ~ッ♡ ( ˙ө˙) ╰( ^o^)╮-=ニ=一=三 (*˘︶˘*).:*♡ 三└(┐卍^o^)卍ドゥルルル 三┗(┓卍^o^)卍ドゥルルルル (ノ≧ڡ≦)てへぺろ 三(‘ω’)三(

    特殊顔文字に使われている謎の文字よ、お前は一体何者なのか – たぬきフォント
  • HTMLのpattern属性とJavaScript正規表現のunicodeオプション - Hatena Developer Blog

    こんにちは、Webアプリケーションエンジニアのid:nanto_viです。みなさんHTMLのフォーム検証機能は使っていますか? 近年は各Webブラウザの対応も進み、お手軽にフォームの利便性を高められるようになっています。 そんなフォーム検証機能のひとつがinput要素のpattern属性です。pattern属性の値にJavaScriptの正規表現パターンを指定することで、ユーザーの入力が意図しないものであった場合、フォーム送信ができなくなります。下図は5桁の数字の入力が求められるところに3桁しか入力せずフォーム送信しようとしたところです。ブラウザに組み込みのエラー表示が出現し、またそのメッセージにtitle属性の値が使われていることを確認できるでしょう。(pattern属性を指定する際には、title属性に書式の説明を記述することが推奨されています。) <input type="text"

    HTMLのpattern属性とJavaScript正規表現のunicodeオプション - Hatena Developer Blog
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • 全角半角混在の文章で 1 行に半角何文字分あるか調べる方法

    「ソースコードは 1 行あたり 80 文字以内」とか「コミットログは横幅 72 文字以内」とか、文字数に関するルールはいろいろある。 ルールを徹底するには機械的に判定したい。と思って、簡単なスクリプトを書こうとした瞬間、意外と「1 行あたりの文字数」をカウントするのが難しいことに気付いた。 たとえば、「あA」は「全角 1 文字+半角 1 文字」なので半角 3 文字分としてカウントしたい。 しかし、UTF-8 の世界では「あA」の文字長は 2 だし、バイト数は 4 (あ=0xE38182、a=0x41) である。 EUC-JP や Shift-JIS の時代なら、単純に「あA」は 3 バイトなので「半角 3 つ分」とすぐ分かったのだけども… (逆に文字長を調べるのが面倒だった)。 はて、どうするか? というのがこの記事でいいたいこと。 East Asian Width を見よ いろいろとググ

    全角半角混在の文章で 1 行に半角何文字分あるか調べる方法
  • WindowsのChromeでのUnicode6.0絵文字

    Windowsの少なくともChrome 30までではUnicode6.0の絵文字がだいたい表示されず豆腐(□みたいなの)に化ける。理由はDirectWriteじゃなくてFontLinkに対応してないとか、デフォルトのフォールバックでUnicode6.0絵文字を含むフォントが指定されていないとかそんな感じなんじゃないかと憶測している。体がDirectWriteに対応するまでどうにかなるとは思えないのでユーザースタイルシートでどうにかした。 Unicode 6.0絵文字はSegoe UI Symbolに全部含まれるので、これが使われるようにユーザースタイルシートを書いてやる。Twitterを例にすると、 .tw-tweet { font-family: "Arial", "Segoe UI Symbol", sans-serif; } で、🍣とか🍶とかがちゃんと表示されるようになる。 S

    WindowsのChromeでのUnicode6.0絵文字
  • 東アジアの文字幅 (East Asian Width) の判定 - 中途

    Unicodeの文字が全角で表示されるか半角で表示されるかは東アジアの文字幅特性値がヒントを与えてくれるそうです。(日語の場合は)この値がNa(狭)、N(中立)、H(半角)だと半角、W(広)、F(全角)、A(曖昧)だと全角として扱うことが推奨されているようです。 Pythonではunicodedataモジュールを使うとこの特性値を取得できますが、JavaScriptにはそのような関数は見当たりません。ですが、Unicode Consortiumが、どの文字がどの東アジアの文字幅を持つかのデータファイルを公開しているので、そこから判定用のコードを機械的に生成できるはずです。 で、以下が実際に生成したコードです。データファイルに、データファイルに出現しない文字はNとなるとあるので、以下ではN以外(F、H、W、Na、A)についてのみチェックを行い、それ以外をNと判定するようにしています。 コメ

    東アジアの文字幅 (East Asian Width) の判定 - 中途
  • 1