技術と国語に関するmojiuraのブックマーク (18)

  • Emacs 23でEUC-JIS-2004: 文字符号化blog

    少し前に、Emacs 23が正式にリリースされました。 まだよく触っていないのですが、Windowsマシンにダウンロードしてみました。 設定方法がよくわからないまま適当にぐぐって (set-default-font "IPAゴシック") としてみたら、EUC-JIS-2004のテキストがちゃんと表示されました。素晴らしい。 と思ったのもつかの間、Unicodeで結合文字の必要な25文字(鼻濁音用のかきくけことか)は正しく表示できていないことが判明。何が悪いのか分かりませんががっかりです。 これでは常用することはできません。多分どこか設定すれば正しく表示できるのだと思いますが、何をどうすればいいのか見当がつきません。 ああ、Unicodeがたった25文字くらいけちけちしなければこんなことで面倒な思いをせずにすんだのに、と思わずにいられないのですが、思ってもしようがないですね。

    mojiura
    mojiura 2009/09/09
    鼻濁音の仮名など 25 文字について「ああ、Unicodeがたった25文字くらいけちけちしなければ」とのこと。たしかにおっしゃるとおりで。まあ「けち」なことをしたわけでもないとは思いますが……。
  • 〓 - Ryusei’s Notes (a.k.a. M59のブログ)

    http://d.hatena.ne.jp/mandel59/20090904/1252071738の答え 同じ名前のファイルが存在しているように見える。 これはそれぞれ 「ほげほげ.txt」(NFD、「げ」は U+3051 U+3099 というシーケンス*1) 「ほげ​ほげ.txt」(ZERO WIDTH SPACEが含まれている*2​) 「ほげほげ.txt」(NFC、「げ」は単一のコードポイント U+3052) となっている。 Mac OS X標準のファイルシステム HFS+ ではファイル名がNFDで正規化されるが*3、Linuxのファイルシステムでは正規化は行わない。 *1:結合文字シーケンスにフォントが対応していなければ「け゛」みたく表示されるかもしれない。ここでは、IPAフォントを結合文字シーケンスも表示出来るように改造したものを使っているので、「フォントを弄った」というのも

    〓 - Ryusei’s Notes (a.k.a. M59のブログ)
    mojiura
    mojiura 2009/09/07
    プログラムの実装をする人は、今後ますます大変なことになりそう。
  • 文字の裏わざ - 日本語への旅

    mojiura
    mojiura 2009/09/02
    普通は小畑(おばた)さんと小畑(こばた)さんは同じ名前として「逃げ切る」ことができる。たとえば郵便物は小畑(おばた)さんも小畑(こばた)さんも同じに届く。振り仮名が必要なのは限定された場面だけと思う。
  • 『活字印刷の文化史』について - もじのなまえ

    このが出たのはゴールデン・ウィークの頃ですから、もう3ヵ月を過ぎますか。来であれば共著者の一人として、書を紹介し、広く勧めるべきところでした。 活字印刷の文化史 作者: 張秀民,大内田貞郎,豊島正之,鈴木広光,小宮山博史,宮坂弥代生,佐賀一郎,劉賢国,孫明遠,内田明,小形克宏,府川充男出版社/メーカー: 勉誠出版発売日: 2009/05/04メディア: 大型 クリック: 42回この商品を含むブログ (13件) を見る 書の全般的な紹介は、先日公開された、編者の小宮山博史さんの文章があります。 漢字・仮名活字の世界史的位置づけ―『活字印刷の文化史』 こうして読むと、あらためてこのの凄味といったものが分かり、またそのようなに場違いな原稿を書いてしまったのではという自責の念にとらわれます。 書収録の原稿は、昨年INTERNET Watchで連載した“情報化時代”に追いつけるか? 

    『活字印刷の文化史』について - もじのなまえ
    mojiura
    mojiura 2009/08/24
    これは読まなくては、と思った。が 10,290 円。まずは財布と相談。
  • Google先生にn[ケヶカヵ个箇か]月の用例数を尋ねてみた - 日本語練習虫

    以下、2009年7月13日23時頃の、n[ケヶカヵ个箇か]月に関する日語ページの検索結果。 nケヶカヵ个箇か 一55,2006,250,000243,000400,00017,80038,100515,000 二22,000951,000106,00092,70052517,100135,000 三44,000924,000107,00088,6003,86026,00088,800 四4,670191,00036,30014,2001,7305,17019,900 五9,780122,00024,6009,2805683,73013,400 六6,620644,00048,20012,4001,49031,10018,700 七1,51067,10013,6005,3103459207,820 八99884,30018,4005,6105022,00013,000 九1,73040,9

    Google先生にn[ケヶカヵ个箇か]月の用例数を尋ねてみた - 日本語練習虫
    mojiura
    mojiura 2009/07/14
    「ウェブの日本語表現にはIMEの影響がとても大きいといふ考察」に共感。ウェブ上の膨大なテキストが蓄積しているのは「日本語利用者の感覚」ではなく「IME の癖」だ。それはもう絶望的なほどに。
  • 黒澤明デジタルアーカイブ

    が誇る世界的映画監督の黒澤明氏が残した創作ノート, 映画,直筆資料や写真などのデジタルアーカイブです. 黒澤明デジタルアーカイブは,全作品のシナリオをはじめ,今まで公開されていなかった, 撮影現場での写真や記録,創作ノート,直筆メモなど, 多数の貴重な資料の永続的な保存・保管・管理を目的としてアーカイブ化されたものです. コンテンツは,教育・研究に資するために作成されたもので, すべてのコンテンツに著作権があります. 画像・メタデータの利用にあたっては著作権法にご留意ください. 黒澤明デジタルアーカイブ資料の利用に関する問い合わせは次までお願いいたします. 株式会社 黒澤プロダクション email: media @ kurosawapro.com 黒澤明に関する新資料の情報や, 黒澤明デジタルアーカイブの資料を雑誌・研究会などで使用する場合は, その情報をお知らせください. 〒5

    mojiura
    mojiura 2009/06/03
    「台本」のところがガリ版。手書きなので「略字」もあるようだし、ところどころ変体仮名も使われてるみたいなので、ちょっと落ち着いて読んでみたい。
  • 日本語組版処理の要件(日本語版)

    1.1 この文書の目的 すべての文化集団は,独自の言語,文字,書記システムを持つ.それゆえ,個々の書記システムをサイバースペースに移転することは,文化的資産の継承という意味で,情報通信技術にとって非常に重要な責務といえよう. この責務を実現するための基礎的な作業として,この文書では,日語という書記システムにおける組版上の問題点をまとめた.具体的な解決策を提示することではなく,要望事項の説明をすることにした.それは,実装レベルの問題を考える前提条件をまず明確にすることが重要であると考えたからである. 1.2 この文書の作成方法 この文書の作成は,W3C Japanese Layout Task Forceが行った.このタスクフォースは,次のようなメンバーで構成され,ユーザーコミュニティーからの要望と専門家による解決策を調和させるために様々な議論を行ってきた. 日語組版の専門家(“JIS

  • ルビを付けよう:「朝日新聞」の漢字にルビを付ける基準 - livedoor Blog(ブログ)

    「朝日新聞」(2009年2月23日付朝刊より)の漢字にルビ(よみがな)を付ける基準です。 中学生と言わずに、小学生や日語初学者にも読めるように、総ルビにしていただければと希望します。 大人でも、日語の漢字には、複数の読み方があるのですから、読みづらいという現実を知ってほしい。

    mojiura
    mojiura 2009/02/25
    ルビを振ることが可能かどうかは(美的問題を除けば)かけられる費用と制作時間とによって決まる。通常の書籍は費用面の問題でルビをあきらめ、新聞は制作時間(速報性の確保)のためにルビをあきらめるのだと思う。
  • 正仮名遣ひと辞書の見出し - ziomの日記

  • 言語学の研究をググってするというのはありなんだろうか?

    たったいまNHKで、「極め付け・幕開け」は誤っており、「極め付き・幕開き」の方が正しい言い方だという話をしていた。文化庁の調査によると、「極め付き」は6割ぐらいの人が、「幕開き」は9割以上の人が間違った言い方をしているという。言葉なんて人間が決めるものなんだから、大半の人が使い始めた段階で「そちらを正しい使い方」と認めてしまうべきだと私は思っているが、今日のテーマはそれではなく、この「文化庁の調査」とGoogleの検索結果の比較。 Googleでそれぞれの言葉を検索して、見つかったページ数を調べる。 極め付け:極め付き=121,000:103,000  (54%が誤用) 幕開け:幕開き=1,880,000:56,100 (97%が誤用) 文化庁の調査結果ととても近い。こうなってくると、言語学を選考している学生が、Googleで調査したデータに基づいて卒論を書くというのは十分有りのような気が

    mojiura
    mojiura 2007/10/25
    「言語学」は統計の扱いに非常に敏感であるべきと思う。でも Google などの検索エンジンのアルゴリズムは、統計の正しさよりも実用性を重視しているはずで、そのまま言語学に使うのは危険だと思う。特に語尾変化とか。
  • 長文日記

    mojiura
    mojiura 2007/10/01
    日本語話者の多くは、日本語の(漢字の、仮名の)原理や由来をほとんど知らないまま、小手先の知識と技術で日本語を操っていて、それでまったく実用上問題はないという事実もある。だからどうした。いや別に。
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
    mojiura
    mojiura 2007/09/25
    賛成です。「ルビ文化」や「ルビる(動詞)」など、語感が素敵です。
  • JAGAT:文章品質の重要性と校正支援

    新聞社や出版社では、古くから校正校閲のルール化が進められていたが、近年では若い世代への継承が課題となっている。また、ITの進展により誰でも簡単に情報発信することができるようになったが、企業では情報発信に伴うコンプライアンスやリスク管理の観点からも、文章品質が重要視するようになっている。 テキスト&グラフィックス研究会では、このような課題を解決する文章校正支援ツールについて、株式会社ジャストシステムの村尾昌浩氏に話を聞いた。 ■ドキュメント作成におけるリスクと非効率 新聞社等では記事の書き方を厳密にルール化しているが、若い世代への継承が課題となっている。ルールが周知されておらず、その結果、校正のやり取りが増え、効率面でも問題となっている。企業でもWebページ等で情報発信する機会が増えているが、うっかり不適切な表現を用いてしまい問題となることがある。 日本語入力システムならではの問題として、変

    mojiura
    mojiura 2007/09/24
    文章の校正を機械的にやっちゃう話。そのうちに校正だけじゃなくて、文章を書くところから機械がやってくれるようになるんだろうな、と思った。技術的にはたぶんそんなに難しくない。
  • http://nagamura.jp/fontmuseum/

    このサイトは国際大学グローバル・コミュニケーション・センター(GLOCOM)の10036RAサイトに移転しました。

    mojiura
    mojiura 2007/09/18
    志の高い活動。「文書を構成するもっとも基本的な要素である『フォント』が文書の期待保存期間を生き抜く保障はほとんどない」と断言しているあたり、すがすがしい。今後の活動に期待。
  • 文章の表示メディアと表示形式が文章理解に与える影響 | CiNii Research

    JaLC IRDB Crossref DataCite NDL NDL-Digital RUDA JDCat NINJAL CiNii Articles CiNii Books CiNii Dissertations DBpedia Nikkei BP KAKEN Integbio MDR PubMed LSDB Archive 極地研ADS 極地研学術DB 公共データカタログ ムーンショット型研究開発事業

    mojiura
    mojiura 2007/08/30
    明朝体とゴシック体の比較のあたり、詳しく知りたい。「さらに,すべての表示メディアにおいて,明朝体と比べてゴシック体の方が文章理解において成績が良い事を明らかにした」とのこと。
  • 母ババ問題再び

    Windows Server 2008が登場しても,認証基盤はActive Directoryだ。いくつかの変更や新機能があるものの,基的な構造は変わらない。強いて言えば,Windows NT 4.0 BDCをサポートしなくなることが大きな違いだ。ところで,先日,ふと思い立ってActive Directoryの「母ババ問題」を試して,以前と同じ動作であることを確認した。 Active Directoryは,ユーザー名にひらがなやカタカナを使った場合,濁点や半濁点の有無を区別しない(促音や拗音も区別しない)。これが,通称「母ババ問題」である。「母」と「ばば(婆)」が同一視されるからだ。マスコミに母ババ問題を指摘されたマイクロソフトの成毛真社長(当時)は,「確かにハハ事業部とかババ事業部を区別できないが,それのどこが問題か,そんな事業部はないだろう」と反論したそうだ(正確な発言記録は発見でき

    母ババ問題再び
    mojiura
    mojiura 2007/08/29
    「おかだ」と「おがた」は区別したいけど、「やまさき」と「やまざき」だと微妙……。といったような話。濁点を、ウムラウトなどのアクセント記号と同列に解釈したらしい。言われてみると、まあ、それなりに納得。
  • http://khdd.net/kanou/im/kyuuri.html

    一般的特色 上に挙げたキーボード配列が、私の使っている「きゅうり」配列です。 おそらくユーザは日に私一人しかいないのではないかと思います。(注) 左手側に子音、右手側に母音が並んでいるため、通常の日語を入力するときには、左右の手が交互に打鍵することになります。片手が動く間にもう片方の手が次の動きを準備するので、非常に高速に打鍵できることが知られています。さらに、片手の指が連続打鍵する時も、「遠くからホームポジションへ/上から下へ/小指側から人差指側へ」という遷移の方が、その逆よりも高速に打鍵できます。 「きゅうり」配列はこの原則に従って設計されています。 「きゅうり」固有の特徴 この発想に基づいて作られたキーボード配列には新旧のさまざまな物がありますが、左手→右手の 1 サイクルに 1 拍 (ただし母音や「ん」は左手を打鍵しない) 入力されることになります。きゅうり配列では

    mojiura
    mojiura 2007/08/23
    キーボード配列。なんだか楽しそう。
  • 機械遺産Mechanical Engineering Heritage

    mojiura
    mojiura 2007/08/09
    井口教授の発明、漢字ではなく平仮名で「ゐのくち」式渦巻きポンプの命名。古い仮名遣いが生き残っていて、嬉しい。
  • 1