英語では、文字とコロンの間にスペースが入りませんが、ヨーロッパで使われるフランス語には、コロンの前にスペースが入ります。
英語では、文字とコロンの間にスペースが入りませんが、ヨーロッパで使われるフランス語には、コロンの前にスペースが入ります。
IPAmj明朝を含むPDFを、iOSのメールアプリやiBooksで表示すると、特定のグリフが爆発する。 爆発前というか、爆発しない環境での表示は、こんなかんじ。 爆発するグリフをOTMaster Lightというツールで見てみた。爆発していた。 「Gridfit」のチェックを外したら、普通に表示された。 GridfitというのはTrueTypeフォントのヒンティング処理(の一部)だと思うが、そこから先はよくわからない。ただ、まったく別系統のアプリ(OTMasterとAppleのiOSアプリ)で同じ現象が見られるということは、たぶん(少なくとも)IPAmj明朝側には問題がありそう。メリー・クリスマス。
自家製資料いろいろ 文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表 部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧 文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ 漢字これくしょん 康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日本語フォント一覧 Unicode変体仮名フォント **new** 実験ツール 文字コードチェッカー 青空UTF IVS異体字メーカー 顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま
NSLinguisticTaggerを用いると、自然言語のテキストを品詞(名詞、動詞、代名詞)や「個人名」「地名」といった属性で区分(トークンに分解)することができます。日本語の形態素解析も可能です。 使い方は非常にシンプルで、基本的な手順は 1. スキームを引数に渡してNSLinguisticTaggerオブジェクトを生成 2. 処理対象テキストをセット 3. トークン分解開始 の3ステップです。 // スキーム NSArray *schemes = @[NSLinguisticTagSchemeLexicalClass]; // NSLinguisticTaggerオブジェクトを生成 NSLinguisticTagger *tagger = [[NSLinguisticTagger alloc] initWithTagSchemes:schemes options:0]; // 処理対
じつはコメントを送っていたNTTドコモ 最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogleが絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。 それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。 ところが前回の掲載後に、NTTドコモがGoogleの絵文字メーリングリストに投稿し
Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの
ボットネット研究で知られるNTTコミュニケーションズの小山覚氏。小山氏の新しい研究対象は「Winnyネットワークの実態」だ。小山氏は「悪意のある人物がワームを撒き散らしているWinnyネットワークは『真っ黒』としか言いようがない」と指摘する。小山氏にWinnyネットワークに関する最新事情を聞いた(聞き手は中田 敦=ITpro)。 小山さんは最近,Winnyネットワークの調査を始められているそうですね。 これは,4月25日の「RSA Conference 2007」で話そうと思っていた内容なのですが,私が出るセッションは,ラックの新井悠さん,JPCERTの伊藤友里恵さん,マイクロソフトの奥天陽司さんというセキュリティ界の論客が揃ったパネル・ディスカッションなので(モデレータは日経パソコン副編集長の勝村幸博),私だけが長い時間発表するのは無理そうです(笑)。そこで,今回のインタビューで全部お話
トナン・大熊肇の(ほぼ文字についての)覚え書きです。 充分に検証していないこともありますので、眉につばをつけてご覧ください。 連絡先:hajimeアットマークtonan.jp(「アットマーク」を「@」に変えてください) 『文字の骨組み』2刷の間違いとご指摘 『文字の骨組み』初刷の間違いとご指摘 『文字の組み方』訂正箇所 『組版/タイポグラフィの廻廊』(白順社)に、「秘」は本来は「祕」で「秘」は誤字であり、単なる誤字が由緒ある誤字になったのは王羲之が誤字である「秘」を書いたからだ、と書いた。 このように「のぎへん」と「しめすへん」は古来たびたび間違われている。 ひらがなも同様で、たとえば「わ」は「和」をくずしたものであり、「れ」は「礼」をくずしたものだから、左側の偏の部分は本来は違うかたちになるべきだ。 上の図版は「元永本古今集」の「われ」だ。 (丸1)が「わ・和」の基本形で、(丸2)が「の
Python の unicodedata モジュール Unicode のちょっとしたテキスト処理をしようと思い、 Python の unicodedata モジュールを使ってみました。これは非常に便利です。 unicodedata は Python に標準で付属するため、別途のインストールは不要です。次のようなことができます。 文字の名前を取得する 文字の名前を取得することができます。Unicode の文字にはすべて一意の名前がつけられています。ソースコード内で Unicode のコードポイントを使うときは U+20AC (EURO SIGN) などとコメントをつけておくと便利でしょう。 >>> unicodedata.name(u'A') 'LATIN CAPITAL LETTER A' >>> unicodedata.name(u'あ') 'HIRAGANA LETTER A' 文字の
最も短い文字名 (Unicode 3.2.0) 3字 U+22BB (XOR) U+22BD (NOR) U+2312 (ARC) U+2609 (SUN) U+264C (LEO) 最も長い文字名 (Unicode 3.2.0) 83字 U+FBF9 (ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA ISOLATED FORM) 四種の正規形 (NFD, NFC, NFKD, NFKC) がすべて異なる文字 (Unicode 3.2.0) 以下の通り。 U+03D3 (GREEK UPSILON WITH ACUTE AND HOOK SYMBOL): NFD <U+03D2, U+0301>, NFC <U+03D3>, NFKD <U+03A5, U+0301>, NFKC <U+038E>
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く