タグ

ブックマーク / kazama.hatenablog.com (9)

  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe

    先日のエントリで「ざっとチェックした限りでは,それらにはまだIVSがらみの変更はないようだが,もし見落としがあれば教えて頂きたい」と書いておいたら,さっそく仕様書に記述はないが,Unicode DatabaseのDUCET(Default Unicode Collation Element Table)はすでに変更されていると指摘して頂いた.どうもありがとう. DUCETをチェックしなかったのは,「Unicode Collation Algorithm」でjava.text.Collatorクラスとjava.text.RuleBasedCollatorクラスが引用されているように,Mark Davisがjava.textパッケージの設計に直接関わっていて,Unicode Databaseがそのままjava.textパッケージに使われていると思っていたからだが,指摘されて実はjava.tex

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe
    nilab
    nilab 2011/01/24
    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe
  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe

    以下の記事に誤りが散見されるが,それが広まるのは望ましくないので,ここで誤りを指摘しておく. 「Java 6 でIVSを比較すると何が起こるか」(yanok.net) まず,Javaの文字列の同一性判定の話である. これは想像通りですね。単にcharの列を比較しただけの結果になっています。つまり、見た目の区別がつかなくても容赦なく別々の文字列として扱っています。これが何をもたらすかというと、Stringクラスで比較しているプログラムに対しては、"与" と "与[0E0100]" と "与[0E0102]" を、見た目の区別がないにもかかわらず、人が入力し分けてやらないと困ることになるということです。 Java言語でUnicode文字列が同一性を判定するには,いくつかの方法がある. java.lang.String#equals()…単なるUnicode文字シーケンスの同一性を判定する ja

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe
    nilab
    nilab 2011/01/24
    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe
  • 「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント - Cafe Babe

    小形克宏氏は,残念ながら山太郎氏が「絵文字の議論は、これでいいのだろうか。」で言いたかった真意を誤解しているように見える. 「絵文字の議論は、これでいいのだろうか。」へのお答え(もじのなまえ) 山氏の指摘にもあるように,実は小形氏の発言の「攻撃的な」姿勢と事実と異なる推測は,すでにいろいろなところで問題にされている.例えば,GoogleやUnicodeコンソーシアムは,当に「世界征服を目論む陰謀組織」なのだろうか?(笑) この原因は,小形氏が今回の事情を勘違いしていることにあると思っている.いつかは直接の関係者から真実が知らされると思っていたし,今まで得られた情報を分析すれば容易に気が付くだろうとも思っていたが,さしつかえないと思う程度まで事情を書くことにする. 今回の提案の大元は,Gmailの携帯絵文字対応である.これは,日のキャリアや日の携帯ユーザからの要望を受けて,Goog

    「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント - Cafe Babe
    nilab
    nilab 2009/11/24
    「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント - Cafe Babe:「今回の提案の大元は,Gmailの携帯絵文字対応である.これは,日本のキャリアや日本の携帯ユーザからの要望を受けて,Google Japanがおこ
  • 絵文字の符号化は何が難しいのか? - Cafe Babe

    安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている. 絵文字はアニメーションするものがある(爆) 絵文字には色の区別がある.しかし,今まで

    絵文字の符号化は何が難しいのか? - Cafe Babe
    nilab
    nilab 2008/12/01
    絵文字の符号化は何が難しいのか? - Cafe Babe
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    nilab
    nilab 2008/02/15
    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe:第80回知識ベースシステム研究会:Senの次期バージョンでGoSenが統合される予定らしい:MapReduceのプログラムを書いてGoogleの巨大な計算機クラスタ:
  • マスコミによる情報の変質 - Cafe Babe

    さすがの高木さんもやられたなあ…と思ったが,実は私も同様な体験がある. http://takagi-hiromitsu.jp/diary/20061219.html#p01 昔,ある有名な大手出版社から取材の申し込みがあり,長時間インタビューを受けた.その後,私の発言が技術的に間違って書かれないかを確認したいと申し出たところ,社の方針として事前の記事の確認は一切しないことになっているが(今から思えばたぶん嘘だろう),正確に書くので,とにかくこちらを信用してくれという回答であった.ところが実際に掲載された記事を見てびっくりした…というのは,私の発言の内容が正反対のものとして描かれていた.つまり,その時の取材対象を攻撃するために所属組織名と私の名前が悪用されたのだ. さっそく広報を通じて抗議してもらったが,相手は一歩も引かず,結局次回に小さな訂正文を掲載することで決着せざるをえなかった.ただ,

    マスコミによる情報の変質 - Cafe Babe
    nilab
    nilab 2006/12/27
    Cafe Babe - マスコミによる情報の変質 : 「自分たちの意見を伝えるためには,事実をねじ曲げてもかまわないんだ.それが報道の自由なんだ.」
  • プログラミング言語における新しいUnicodeの活用法 - Cafe Babe

    東京大学でおこなわれた,Sun Microsystems LaboratoriesのGuy Steeleの"The Fortress Programming Language"という講演を聴いてきた.当日は,著名な先生方が沢山集まっただけでなく,そもそも用意した部屋のキャパの確実に二倍以上集まりすぎて,急遽大教室に変更されるというおまけ付き.ただ,講演内容はアナウンスしたよりも一般的な内容に変更されていた. Fortressは,Guy Steeleが数値計算分野に対して提案する,新しいプログラミング言語である.基的には,C言語に対してJava言語がおこなったと同じような変革を,Fortranに対して行おうとしている.たとえば,小さな言語コア部分に対して,ライブラリを追加して拡張したり,ユーザがパラメタライズドタイプの定義や演算子のオーバーロードを自由におこなえるようにしている.また,グロ

    プログラミング言語における新しいUnicodeの活用法 - Cafe Babe
    nilab
    nilab 2006/05/01
    Cafe Babe - プログラミング言語における新しいUnicodeの活用法
  • Search Engine Strategies 2006 - Cafe Babe

    メモ代わりに簡単に書いておく.なお,私が興味あるのは,Web検索とWeb検索行動解析だけであり,ごく一部のセッションしか聞いていないことに注意されたい. http://www.idg.co.jp/expo/ses/ 一日目のYahoo! Japanのセッションは,ソーシャルサーチに重点を置いていた.それは,Web検索+コンテンツ+ソーシャルネットワーク+アカウント+マイ・ランクで実現するものらしい.少し前は,彼らはパーソナライズと言っていたと記憶しているが,やはりすぐ限界が見えたのではないかと思う.というのは,基的に個人に対するパーソナライズでは個人の限界というものを超えられないために,情報を探すような創造的な行動の場合に対してはよい結果が得られない.その代わりに着目したのが,ソーシャルメディアらしく,要するに似たような興味を持つ他人の行動は参考になるということである. その基となるの

    Search Engine Strategies 2006 - Cafe Babe
    nilab
    nilab 2006/04/25
    Cafe Babe - Search Engine Strategies 2006 : 検索関連トピック
  • Javaのバグを見つけたんですが… - Cafe Babe

    最近,社内のとある人から,Javaのとあるバグで困っていると相談を受けた.そこで,代わりにバグデータベースを調べてバグレポートを見つけて,もしこのバグなら,このバグに投票してコメントしろと答えたが,それに対する返事はないし,現在もそのバグレポートの投票数が増える気配はまったくない(苦笑) まあ,自分の仕事で直面する問題を解決して,できる限りよい成果を出そうというほどの気合いがないのかもしれない.それどころか,そういうことをちゃんと実行する仕事に真摯な人は社内的に嫌われるのが日の企業文化(いや,実は弊社だけだったりして(苦笑))なのかもしれないなあ…と嘆いていたところに,kyukaさんのブログに非常にナイスな投稿があった. それを元に,Javaのバグを直す方法をざっと振り返ってみよう. バグデータベースを使って,投票・報告する まず最初にやるべきことは,バグデータベースを検索すること.そし

    Javaのバグを見つけたんですが… - Cafe Babe
    nilab
    nilab 2005/12/07
    Javaのバグを直す方法
  • 1