タグ

文字に関するja_bra_af_cuのブックマーク (51)

  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
  • 外国人「Emoji(絵文字)という言葉は日本語らしいぞ」→「マジ⁉︎・・」

    で生まれ、今では世界中で使われるようになった絵文字海外でもこの絵文字はそのまま”emoji”という言葉で表現されていますが、この言葉の語源が日語であるというのは、海外では意外と知られていないようです。 今回はそれを知った人のスレが話題を集めていたので翻訳してみました。 元スレ 海外掲示板 今日知ったこと:”emoji”という言葉は”emotion”(感情)とはなんの関係もない。 日語のPicture(絵)とCharacter(文字)をあわせた言葉だ。 https://www.reddit.com/r/todayilearned/comments/6fwuxi/til_the_word_emoji_has_no_connection_to_emotion/ Anonymous from unknown マジ?? 知らなかった。。 Anonymous from unknown 信じら

    外国人「Emoji(絵文字)という言葉は日本語らしいぞ」→「マジ⁉︎・・」
  • 漢字の「一」「二」「三」の次がいきなり「四」になるのはなぜなのか?

    一、二、三、…………四。なんでだよ。 「四」という字の形、冷静に見返してみると不思議です。横棒1で一。2で二、3で三。ここまではいいのに、なぜかいきなりの「四」。 ということで、今回は漢数字「四」の謎について調べてみました。 そもそも「一二三」が分かりやすいのだ まずは一、二、三についての成り立ちを漢字辞典で調べてみましょう。すると、「横線の数で数字を表した漢字である」ということが分かります。そりゃあそうだ。 このように、概念を図形的に説明した漢字の作り方を「指事」といいます。 例えば、「↑」を表す漢字は、まず基準線となる横棒を書き、「それより高い」ことを示すために、線の上に書き足して「上」。「↓」は逆の手順で「下」。 このような指事の考え方のもと、「数字の1という概念」は「横線1」で表せる、ということで漢字の「一」が生まれました(最初に漢字を作った人がそこまで細かく考えたのかは分

    漢字の「一」「二」「三」の次がいきなり「四」になるのはなぜなのか?
  • 世界初の「ジェンダーレス絵文字」は、性別に対する先入観を打破できるか

  • 字が書けるようになりたい! | うちの子は字が書けない ~発達性読み書き障害の息子がいます(千葉リョウコ) | WEB asta

    千葉リョウコ 漫画家。千葉県在住。家族は夫と高校生の長男、中学生の長女、小学生の次男とトイプードルの5人+1匹。 長男が小学6年生のとき、「発達性読み書き障害」と判定され、以来、ともにトレーニングや受験に取り組んできた。2017年現在も二人三脚で奮闘中。 エッセイは作が初となる。 監修:宇野彰 筑波大学教授、NPO法人「LD・Dyslexiaセンター」理事長。 著書に『ことばとこころの発達と障害』(永井書店)、 『小学生の読み書きスクリーニング検査―発達性読み書き障害(発達性dyslexia)検出のために』(インテルナ出版)などがある。

    字が書けるようになりたい! | うちの子は字が書けない ~発達性読み書き障害の息子がいます(千葉リョウコ) | WEB asta
  • インカに「文字」? 解読の有力な手掛かり発見か - 日本経済新聞

    ペルー、アンデス山脈の人里離れた村で、色とりどりのひもに結び目を付けた装置が発見された。インカ帝国で数を記録するために使われたとされる装置だが、この村のものからは、ほかの用途にも使われていたことが示唆されるという。「キープ」と呼ばれるこの装置は、結び目の組み合わせによって数を表す仕組みで、トウモロコシや豆類といった料の貯蔵量を記録するために使用されていた。さらに、一帯を植民地として支配してい

    インカに「文字」? 解読の有力な手掛かり発見か - 日本経済新聞
  • 凸版印刷、くずし字で書かれた資料をOCRでテキスト化するビューアを開発

    凸版印刷は25日、光学文字認識(OCR)を応用し、江戸期以前のくずし字で記されている歴史的資料に誰でも容易にアクセスできるWebビューア「ふみのは」を開発したことを発表した。同ビューアを使った公開用データ制作サービスの提供を、今年5月から開始予定。 このたび開発された「ふみのは」は、江戸期以前のくずし字(ひらがな、カタカナ、漢字を崩して書いた手書き文字)で記されている古典籍の文字をOCRで判別して、テキストデータに変換するビューア。一般的なWebブラウザを使って、歴史的資料の原画像の上に翻刻(古典籍などの古い文献を現代の活字等を使って一般に読める形式にすること)や多言語翻訳文を重ねてHTML形式で表示するため、Webブラウザさえあればどこでも表示できる。 従来の原画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、全文検索やインターネット上の横断検索など

    凸版印刷、くずし字で書かれた資料をOCRでテキスト化するビューアを開発
  • #2913. 漢字は Chinese character ではなく Chinese spelling と呼ぶべき?

    前 次 hellog英語史ブログ #2913. 漢字は Chinese character ではなく Chinese spelling と呼ぶべき?[grammatology][kanji][alphabet][word][writing][spelling] 高島 (43) による漢字論を読んでいて,漢字という表語文字の一つひとつは,英語などでいうところの綴字に相当するという点で,Chinese character ではなく Chinese spelling と呼ぶ方が適切である,という目の覚めるような指摘にうならされた. 漢字というのは,その一つ一つの字が,日語の「い」とか「ろ」とか,あるいは英語の a とか b とかの字に相当するのではない.漢字の一つ一つの字は,英語の一つ一つの「つづり」(スペリング)に相当するのである.「日」は sun もしくは day に,「月」は moon

  • #2860. 文字の形の相称性の有無

    文字論では,文字の機能といった抽象的な議論が多くなされるが,文字の形という具体的な議論,すなわち字形の議論は二の次となりがちだ.各文字の字形の発達にはそれ自体の歴史があり,それをたどるのは確かに興味深いが,単発的な話題になりやすい.しかし,このような卑近なところにこそ面白い話題がある.なぜローマン・アルファベットの字形はおよそ左右相称的であるのに対して,漢字や仮名の字形は非相称であるのか.アルファベットの字形には幾何学的な端正さがあるが,漢字やそこから派生した仮名の字形にはあえて幾何学的な端正さから逸脱するようなところがある.これは,なぜなのか. もちろん世界の文字種には様々なものがあり,アルファベットと日語の文字のみを取り出して比較するだけでは視野の狭さは免れないだろう.また,字体の問題は,書写材料や書写道具の歴史とも深く関係すると思われ,その方面からの議論も必要だろう(「#2456.

    ja_bra_af_cu
    ja_bra_af_cu 2017/02/24
    "字形と空間の認識方法の間に,ひいては言語と空間との間に「ほとんど密謀的とも言える平行関係」(牧野,p. 11)があるとするならば,これは言語相対論を支持する1つの材料となるだろう"
  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

  • キーボードの文字配列はどうして「QWERTY」なのか?

    By Sarah ベーシックなキーボード配列といえばQWERTY配列ですが、キーボードに初めて触った際に「なぜこんな奇妙な配列なんだ?」と疑問を抱いた人も多いはず。その起源がどこにあるのかをHackadayが探っています。 The Origin of QWERTY | Hackaday http://hackaday.com/2016/03/15/the-origin-of-qwerty/ ◆キーボードの親「タイプライター」の誕生 キーボード配列の創案はタイプライターから来ています。このタイプライターは1人の人間が発明したものではなく、多くの人々が発明・改良を加える中で現在のカタチに進歩していったものと考えられています。そんなタイプライターの初期の発明家として知られているのが、イギリスのヘンリー・ミル。彼は1714年に「文字をきれいかつ正確にひとつずつ銘記もしくは転写する、調停や公文書を書

    キーボードの文字配列はどうして「QWERTY」なのか?
  • はねても、とめても正解…漢字の細かい違い許容 : 社会 : 読売新聞(YOMIURI ONLINE)

    文化庁の文化審議会漢字小委員会は9日、漢字の手書き文字について、「はねる」「とめる」など細かい違いで正誤はなく、多様な漢字の形が認められていることを説明する指針案をまとめた。 今春までに指針の確定版を作成して文化庁ホームページに掲載し、書籍化も予定している。 現在の常用漢字表でも、漢字には様々な書き方があり、細かい違いは許容されるとしている。しかし、2014年度の国語に関する世論調査で、「はね」「とめ」や点の向きなどの違いで、人によって正しいと考える字形が違うことがわかった。 指針案では、点や線の「長短」「方向」「つけるか、はなすか」「はらうか、とめるか」「はねるか、とめるか」など、違いがあっても同じ漢字として認められる事例を示した。常用漢字表にある全2136字でも、1文字につき2~3個、手書き例を示した。 また、学校のテストなどでは、指導した字形以外の字形であっても、柔軟に評価するよう求

    はねても、とめても正解…漢字の細かい違い許容 : 社会 : 読売新聞(YOMIURI ONLINE)
  • #2417. 文字の保守性と秘匿性

    文字を利用する書き言葉という媒体は,話し言葉に対して保守的である.このことは,これまでの文字や書き言葉に関する記事において前提としてきた.これについては,例えば「#15. Bernard Shaw が言ったかどうかは "ghotiy" ?」 ([2009-05-13-1]),「#753. なぜ宗教の言語は古めかしいか」 ([2011-05-20-1]),「#2292. 綴字と発音はロープでつながれた2艘のボート」 ([2015-08-06-1]),「#2405. 綴字と発音の乖離 --- 英語綴字の不規則性の種類と歴史的要因の整理」 ([2015-11-27-1]) を参照されたい. 文字には,保守性に加えて,特に古代においては秘匿性があった.文字の読み書き能力は,特権階級にのみ習得の認められた秘密の技能であり,それは権力や威信の保持にもあずかって大きかった.また,世俗的な権力と宗教的な威

  • WindowsとMacでUnicodeマッピングが違う文字 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    JIS X 0208の範囲内の文字を対象に、WindowsMacでUnicodeマッピングが違うものをリストアップしてみた。 Windows側のマッピングの文字(U+FF5E FULLWIDTH TILDEなど)がMac環境のテキストに紛れ込んだ場合、目で見て違いを判別するのは難しいため、予期せぬ事態の原因となる可能性がある。 FULLWIDTH TILDEなどは、Mac OS Xにおける通常の利用では、わざわざ文字パレットから入力したのでなければ出現することはまれである。ただし、Windowsで作成したドキュメント経由で入り込んでくることがあるほか、2chブラウザのBathyScapheのように、Mac用のアプリでありながらあえてCP932の変換テーブルを採用している例もある。 たとえば波ダッシュ(01-33 WAVE DASH)は、BathyScaphe上ではU+301C WAVE

    WindowsとMacでUnicodeマッピングが違う文字 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    ja_bra_af_cu
    ja_bra_af_cu 2015/11/09
    全角ダーシが em dash に,全角ハイフンが半角マイナスに
  • フランスの若者の間で流行る独自の言語、上がる賛否両論の声

    言語の目的は、それを使う社会でコミュニケーションを成立させるためだ。そのため、言語は使用されるにつれ社会とともに変化していく運命にある。技術の進歩により、このような言語の変化はある年齢層、特に十代の若者の間で目まぐるしいスピードで進み、十代の若者とその親との間に途方もない隔たりを生み出してしまうことがある。 フランスでは、十代の子供との会話についていけないと嘆く親が多くいるという。解決できない問題というわけではないが、その隔たりを埋めるにはちょっとしたテクニックが必要だ。フランス語を話す親に向けて、世代間のギャップや技術の進歩、時には文化的要因により阻まれてしまったコミュニケーションを再開するためのコツを以下に紹介しよう。 SMS言語(テキスト言語) SMS(ショートメッセージサービス)言語は、使う単語の長さを短くすることで、文字数を制限範囲内に抑えるだけでなく、携帯電話で文字を入力するス

    フランスの若者の間で流行る独自の言語、上がる賛否両論の声
  • エラーが発生しました。

    Record China

    エラーが発生しました。
  • #2341. 表意文字と表語文字

    文字の種類と類型について,「#422. 文字の種類」 ([2010-06-23-1]) や「#1822. 文字の系統」 ([2014-04-23-1]) などで考えてきた.文字論の入門的な文献でも,標題に掲げた表意文字 (ideogram) と表語文字 (logogram) は必ず触れられるものの,両者の違いの説明となると,たいてい歯切れが悪い.しばしば両者が混同され同一視されることもあるように,両者のあいだにいかなる違いがあるのかを明確に理解している人は必ずしも多くない.誤解がはびこっていることは,Bloomfield (285) の次の指摘からも知られる.来の表語文字のことを「表意文字」と理解している向きが多いようだ. Systems of writing which use a symbol for each word of the spoken utterance, are kn

  • ネット新聞が全角英数なのはなぜ? | web R25

    新聞社ならではの事情があったようだ ※この画像はサイトのスクリーンショットです 朝日新聞デジタルが10月12日、ノーベル平和賞を受賞したパキスタンの活動家・マララさんのスピーチ全文を全角の英字で掲載したところ、“読みにくい”などという苦情が相次ぎ、半角で再掲載したことが、ネット上で話題になっている。 ツイッターには、「何だこの全角英語の塊は… なぜこれを編集部(?)がOK出したのかすごく気になるわ」と驚き呆れるコメントが登場し、続いて「逆にどうやって全角で打ったのか」など、“むしろ全角ローマ字で英語を入力するほうが大変なのではないか?”という意見が殺到。紙面では普通に半角英字で掲載され、ウェブ版だけが全角英字だっただけに、ますます謎を呼んでしまった。 これらの声がtogetterに「朝日新聞の全角英文に戸惑う人たち」としてまとめられると、朝日新聞長岡支局の伊丹和弘氏がツイッターで反応

    ネット新聞が全角英数なのはなぜ? | web R25
  • 正規表現:悪い表現、いい表現、最良の表現 | POSTD

    わずかな文字がいかにしてパフォーマンスに大きな違いを生めるかというお話 正規表現は、私たち開発者がことあるごとに駆使する呪文のようなものですが、私たちはそれをどんな時も巧みに使いこなしていると言えるでしょうか。正規表現は繊細で精密な言語です。入念な慎重さで記述してやれば、ボウリングで一瞬にして完璧なストライクを取るような強力なテキストとなり得ます。 しかし、正規表現が精密さに欠ける状態で投げ出されると、さながら酔っ払いがよろよろとつまずきながらテキストの上を歩くがごとく、そのボールはぎこちなくボウリングのレーンを転がり、ピンを1つか2つ倒すだけで終わってしまうのです。 これら2つの正規表現の違いは何なのか。何がいい表現と悪い表現を分けるのか。正規表現に素晴らしい力を与えるメカニズムを、この投稿で明かしてみようと思います。効果的な表現とそうでない表現との大きな違いをきっと分かってもらえるはず

    正規表現:悪い表現、いい表現、最良の表現 | POSTD
  • Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ

    Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。 横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。 波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と