タグ

ブックマーク / kazama.hatenablog.com (48)

  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe

    以下の記事に誤りが散見されるが,それが広まるのは望ましくないので,ここで誤りを指摘しておく. 「Java 6 でIVSを比較すると何が起こるか」(yanok.net) まず,Javaの文字列の同一性判定の話である. これは想像通りですね。単にcharの列を比較しただけの結果になっています。つまり、見た目の区別がつかなくても容赦なく別々の文字列として扱っています。これが何をもたらすかというと、Stringクラスで比較しているプログラムに対しては、"与" と "与[0E0100]" と "与[0E0102]" を、見た目の区別がないにもかかわらず、人が入力し分けてやらないと困ることになるということです。 Java言語でUnicode文字列が同一性を判定するには,いくつかの方法がある. java.lang.String#equals()…単なるUnicode文字シーケンスの同一性を判定する ja

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り - Cafe Babe
    sassano
    sassano 2011/01/20
  • 「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe

    先日のエントリで「ざっとチェックした限りでは,それらにはまだIVSがらみの変更はないようだが,もし見落としがあれば教えて頂きたい」と書いておいたら,さっそく仕様書に記述はないが,Unicode DatabaseのDUCET(Default Unicode Collation Element Table)はすでに変更されていると指摘して頂いた.どうもありがとう. DUCETをチェックしなかったのは,「Unicode Collation Algorithm」でjava.text.Collatorクラスとjava.text.RuleBasedCollatorクラスが引用されているように,Mark Davisがjava.textパッケージの設計に直接関わっていて,Unicode Databaseがそのままjava.textパッケージに使われていると思っていたからだが,指摘されて実はjava.tex

    「Java 6 でIVSを比較すると何が起こるか」の記事の誤り(続編) - Cafe Babe
    sassano
    sassano 2011/01/20
  • 竹内郁雄教授最終講義「研究・開発は楽しく」(東京大学) - Cafe Babe

    3月3日に東京大学で竹内郁雄教授の最終講義がおこなわれた. なお,今回は参加者が多かった他の最終講義の参加人数から推測して340名の会場を用意したのだが,予想をはるかに上回る参加人数(400名くらい?)で,一部の人達は立ち見になってしまった.また,鵺シール・竹内郁雄最終講義スペシャルバージョン(普通は文字がオレンジ,これは文字がブルー)も300枚用意したのだが,全然足りなくて一部の人達には渡すことができなかった.この場を借りて準備不足をお詫びしたい. なお,最終講義の様子は二台のビデオカメラで撮影してある.大学の許可が出れば,公開されるかもしれないので,その時はこのブログでもお知らせしようと思う. さて,今回の講義の題名は「研究・開発は楽しく」である.竹内先生によると,通常の最終講義で喋る内容はすでに別の場所で喋ったので,それは講演の資料として配ることにして,最終講義では別の話にしたいとい

    竹内郁雄教授最終講義「研究・開発は楽しく」(東京大学) - Cafe Babe
    sassano
    sassano 2010/03/06
  • 第87回 知識ベースシステム研究会 (SIG-KBS) 参加者募集 - Cafe Babe

    先日論文投稿をお願いした第87回 知識ベースシステム研究会だが,1/29(金)にNTT武蔵野研究開発センターで開催する.直前に発表が2件キャンセルされて8件になったので,一日開催に変更したが,お許し願いたい. プログラムは以下を見て頂きたい.今回は「Web情報処理」特集であり,なかなか興味深い発表が集まったと思っている. 第87回 知識ベースシステム研究会 (SIG-KBS) プログラム なお,先日お知らせしたように,今回はグーグルの内田誠氏による招待講演がある. 題名:「Google Marketingにおけるコンピューターサイエンスと統計学」 講演者:内田誠(グーグル) 概要: Googleには,Quantitative Marketingと呼ばれる,マーケティングのためのデータ分析を専門とするチームがあります.このチームは,メンバーのほとんどがコンピューターサイエンスもしくは数学・統

    第87回 知識ベースシステム研究会 (SIG-KBS) 参加者募集 - Cafe Babe
  • 常用漢字表のUnicode補助文字問題 - Cafe Babe

    京大の安岡先生が常用漢字表でUnicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている. どうして常用漢字表を改定するハメになったのか(yasuokaの日記) まあ,Shift-JISや日語EUCを使って実装しているシステムで扱えないのは当然だが,Unicodeを使っているシステムでも正しく扱えるとは限らない.というのは,Unicode補助文字というのは,U+10000〜U+10FFFFの領域に符号化されており,UTF-16ではサロゲートペアを使って表現され,UTF-8では4バイトに符号化されるからだ.文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは,何が起こるかわからない.この辺は,我々がJava言語に対しておこなった話が参考になるとおもう

    常用漢字表のUnicode補助文字問題 - Cafe Babe
    sassano
    sassano 2009/12/17
  • ことえりユーザ辞書からGoogle辞書への変換 - Cafe Babe

    ことえりのユーザ辞書からGoogle日本語入力の辞書フォーマットに変換するプログラムを作ってみた.使い方は以下の通り. % javac DicConverter.java % java DicConverter ことえりの辞書.txt Googleの辞書.txt 注意点は以下の通り. ことえりのユーザ辞書は,ことえり単語登録を起動して,「テキストに書き出す…」メニューを選んでほしい.このときにテキスト形式はUnicodeにすること. Google日本語入力では,「辞書ツール…」メニューで辞書ツールを起動して,「新規辞書にインポート…」または「選択した辞書にインポート…」を選んで欲しい.この時に,フォーマットはGoogle,エンコードはUTF-8にすること. 品詞のマッピングは完全ではない.たとえば,「名詞」は「固有名詞」,「人名」は「姓」,「名」という指定もできるので,あとから適時変更して

    ことえりユーザ辞書からGoogle辞書への変換 - Cafe Babe
  • 「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント - Cafe Babe

    小形克宏氏は,残念ながら山太郎氏が「絵文字の議論は、これでいいのだろうか。」で言いたかった真意を誤解しているように見える. 「絵文字の議論は、これでいいのだろうか。」へのお答え(もじのなまえ) 山氏の指摘にもあるように,実は小形氏の発言の「攻撃的な」姿勢と事実と異なる推測は,すでにいろいろなところで問題にされている.例えば,GoogleやUnicodeコンソーシアムは,当に「世界征服を目論む陰謀組織」なのだろうか?(笑) この原因は,小形氏が今回の事情を勘違いしていることにあると思っている.いつかは直接の関係者から真実が知らされると思っていたし,今まで得られた情報を分析すれば容易に気が付くだろうとも思っていたが,さしつかえないと思う程度まで事情を書くことにする. 今回の提案の大元は,Gmailの携帯絵文字対応である.これは,日のキャリアや日の携帯ユーザからの要望を受けて,Goog

    「「絵文字の議論は、これでいいのだろうか。」へのお答え」へのコメント - Cafe Babe
  • 第87回 知識ベースシステム研究会 (SIG-KBS) 発表募集 - Cafe Babe

    来年の1/28(木)〜29(金)に,NTT武蔵野研究開発センターで,今年も「Web情報処理」というテーマで人工知能学会 知識ベースシステム研究会を開催する. 第87回 知識ベースシステム研究会 (SIG-KBS) 発表募集 今年の招待講演はグーグルの内田誠氏にお願いする予定だ.彼は東大で学位を取得してからグーグルに入社し,現在マーケティング部門でグーグルのサービスのユーザベースを増やすための統計的な分析をおこなっているそうである.今回のような話はまだ前例がなく,外で話せないような情報も多いこともあって,これからじっくり具体的な講演内容を詰めて行くことになるが,たぶん他では聞けないような貴重な話が聞けるのではないかと思う.資料の掲載はおこなわない予定なので,興味がある人はぜひ参加して頂きたい. 発表申し込みの〆切は12/11(金)である.関連分野の研究者がいたら,ぜひ投稿・参加を検討して頂き

    第87回 知識ベースシステム研究会 (SIG-KBS) 発表募集 - Cafe Babe
    sassano
    sassano 2009/11/04
  • Web Communities -Analysis and Construction- (Springer-Verlag) - Cafe Babe

    一言で言えば,Webのハイパーリンクの解析についてまとめたで,たとえば,HITSやPageRankのようにWebページの重要度を判定する方法や,Webページの類似度判定とHierarchical Clustring,Matrix-Based Clustering,Co-Citationなどのクラスタリング手法,そしてWebコミュニティの抽出などについて述べている. Web Communities: Analysis and Construction 作者: Yanchun Zhang,Jeffrey Xu Yu,Jingyu Hou出版社/メーカー: Springer発売日: 2006/01/15メディア: ハードカバー購入: 3人 クリック: 44回この商品を含むブログ (3件) を見る このが良いのは,たとえばHITS,PageRankと言っても,その関連アルゴリズムをかなり網羅的

    Web Communities -Analysis and Construction- (Springer-Verlag) - Cafe Babe
    sassano
    sassano 2009/02/26
  • 第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)参加者募集 - Cafe Babe

    先日論文投稿をお願いした84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)だが,1/29(木)〜30(金)に開催するので,発表内容や筑波大学の藤井敦先生の招待講演「情報爆発時代のツールとしての知識検索技術」に興味がある人は,ぜひ参加して頂きたい.詳しいことは以前の記事や当日のプログラムを見て頂きたい. この研究会は事前登録不要,参加費無料である.資料代が1,500円(学生会員は無料)だが,特に購入する義務はない(実は,予稿集が沢山売れすぎると赤字が出てしまうという話なので,こちらとしても押しつけるつもりはない(苦笑))会場が駅から遠いのがちょっとアレだが,藤井敦先生の講演はWebの情報探索の新しい形に興味ある人は要チェックで,私も非常に楽しみである.

    第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)参加者募集 - Cafe Babe
    sassano
    sassano 2009/01/26
  • Appleのインターン募集 - Cafe Babe

    Appleの木田泰夫氏(私の義兄である)のブログによると,Appleがインターンを募集しているそうである. インターン募集(蕎麦処 ぱろある亭) 木田泰夫氏は,学生時代はファミコン版テトリスの販売で有名なBPSというゲーム会社の初期のオリジナルゲーム(「ブラックオニキス」や「ファイヤークリスタル」の頃),PC-9801系のデモプログラムやTRON OSのデバイスドライバなどのプログラマとして活躍し,東大を卒業してAppleに入社してからはMaciPhoneのインプットメソッド(「ことえり」),日形態素解析エンジン,検索システム,フォント(「ヒラギノ」)など,Appleのプロダクトで「日人にとって不可欠なほとんどすべての部分」の開発や,Unicode StandardのVariation Selector・絵文字などの仕様に関わった・関わっている著名な人物である. 現在(技術的に)面

    Appleのインターン募集 - Cafe Babe
  • 携帯の絵文字の符号化の提案のパブリックレビュー開始 - Cafe Babe

    以前にお伝えした携帯の絵文字の符号化の提案だが,ついに2009年2月のUTCミーティングに向けてのパブリックレビューを開始した.詳しくは,GoogleグループのMarkus Schererの次の投稿を見て頂きたい. "Emoji: Public Review December 2008"(Googleグループ "emoji4unicode") コメントの〆切は2009年1月14日(水)である.この主なターゲットはUnicodeコンソーシアムメンバーなのだが,他にも絵文字の符号化に興味,関心,利害のある人々にぜひ積極的にフィードバックして欲しいそうである.ぜひ,日のみなさんにも積極的にこの提案を評価・検討して頂くことをお願いしたい.フィードバック方法は,Googleグループの"emoji4unicode"に投稿して頂くだけでよい(できる限り全員が読める英語の方がよいが,関係者に日人もいる

    携帯の絵文字の符号化の提案のパブリックレビュー開始 - Cafe Babe
  • 絵文字の符号化は何が難しいのか? - Cafe Babe

    安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている. 絵文字はアニメーションするものがある(爆) 絵文字には色の区別がある.しかし,今まで

    絵文字の符号化は何が難しいのか? - Cafe Babe
    sassano
    sassano 2008/11/28
  • 携帯の絵文字のUnicodeへの収録 - Cafe Babe

    先ほど,日の携帯で使われている「絵文字」のUnicodeへの収録を検討していることと,そのためのデータがGoogleのブログで発表された.詳細は以下を見て頂きたい. Emoji for Unicode: Open Source Data for the Encoding Proposal(Google Code) Googleの日語ブログでも,もうすぐ日語訳(?)を公開するそうである(追記:公開された.).この案は,将来的にISO/IEC JTC 1/SC 2に提案することになると思われる. この提案で誤解して欲しくないことは,この提案は,既存の携帯の変更を伴わないことである.つまり,この提案は,例えばGmailのような複数の携帯キャリアの絵文字を扱わねばならないシステムを意図したものであり,従来私用領域(Private Use Area)に割り当てていた文字を正式に符号化すると共に

    携帯の絵文字のUnicodeへの収録 - Cafe Babe
    sassano
    sassano 2008/11/27
  • 第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)発表募集 - Cafe Babe

    来年の1/29(木)〜30(金)に,NTT武蔵野研究開発センターで,今年も「Web情報処理」というテーマで人工知能学会 知識ベースシステム研究会を開催する予定である.興味がある人は,昨年と一昨年の様子も見て頂きたい. 今年の招待講演は,筑波大学の藤井敦准教授に,「情報爆発時代のツールとしての知識検索技術」という題名でお願いした.藤井先生は平成14年度の天才プログラマー/スーパークリエータであり,たとえば辞典検索システムCycloneを開発・公開している.最近私が感銘を受けたのは,WWW2008の次の論文であり,近年GoogleYahoo!Microsoftなどの企業が持っている実データを使わないとなかなか難関会議に論文が通らなくなりつつあるが,藤井先生はNTCIRのデータを使って,彼らに勝るとも劣らないレベルの研究をしている. Atsushi Fujii. Modeling Ancho

    第84回人工知能学会 知識ベースシステム研究会 (SIG-KBS)発表募集 - Cafe Babe
    sassano
    sassano 2008/11/21
  • Web上でついにUnicodeがASCIIを越える - Cafe Babe

    Mark Davisのブログの記事「Moving to Unicode 5.1」によると,Web上で使われる文字符号化の割合として,UTF-8が,ASCIIやISO-8859-1/CP-1252を越えたらしく,その様子がErik von der Poelが作成したグラフでわかる. すでに,かなり前から既にOSやシステムの内部で用いる文字符号化はUnicode化されていたのだが,しばらくは外部との情報交換は以前としてShift-JISや既存の文字符号化を用いることが多かったし,未だにUnicode化されたことを気が付いていないユーザも多いだろう.しかし,少なくともWebに限れば,Unicode化されたシステムの普及により外部との情報交換もUnicodeでおこなうようになったことと,英語圏以外から発信される情報が増えていることが複合した結果だろう.まあ,文字符号化判定アルゴリズムや言語比率(G

    Web上でついにUnicodeがASCIIを越える - Cafe Babe
    sassano
    sassano 2008/05/07
  • キーボード配列QWERTYの謎(NTT出版) - Cafe Babe

    ある日,会社の机の上にあった小包を開けると,中に安岡先生のブログを見て興味を持っていたこのが!…安岡先生,どうもありがとう!! キーボード配列QWERTYの謎 作者: 安岡孝一,安岡素子出版社/メーカー: NTT出版発売日: 2008/03/01メディア: 単行購入: 1人 クリック: 430回この商品を含むブログ (52件) を見る書は「QWERTY配列はタイプライターの機械的トラブルを回避するために,意図的に打ちにくいように設計されている」という,未だに信じている人が沢山いるようなまことしやかな嘘がどうして生まれたのか?という謎に,タイプライターの誕生からドキュメンタリータッチで迫っていくであり,約200ページもあるが,最後まで非常に楽しく読むことができる. 書では,我々が普段慣れ親しんでいるキーボードについて,以下の重要な事実が明らかにされる. キーボードはどのように誕生・

    キーボード配列QWERTYの謎(NTT出版) - Cafe Babe
    sassano
    sassano 2008/04/23
  • 送別会 - Cafe Babe

    三軒茶屋のイタリア料理店ペペロッソで村上健一郎さんの送別会. 村上さんはNTTのインターネット技術を支えてきた一番のキーパーソンで,日で最初に海外にIP接続し(AS番号が3桁!),日で最初にTCP/IPプロトコルスタックを実装し,日で最多のRFC執筆者だ.Ciscoを日に紹介したのも彼(電源やケースが気に入らず特注していたので,初期のラインナップには彼用のNTTマーク入りのものさえある)だし,当に業績を挙げきれない.また社内だけでなく,大学,企業など非常に広くサポートしてもきた.彼がいなかったら今のNTTは存在しえなかったと言える.ただし,論文数だけは少ないのは,竹内郁雄教授(村上さんの元上司)から脈々と続く伝統(?)か. もし,今上層部で他に「俺が立ち上げたんだ」と言っているような人がいたら,そいつは嘘つきで信用できないと断言してよい(苦笑)技術的な質問を一つ二つしてみれば,す

    送別会 - Cafe Babe
    sassano
    sassano 2008/03/05
  • Ajax IMEに関する補足 - Cafe Babe

    さて,先日の報告で私が聞き逃した点に関して,工藤氏にメールで伺ったところ,即座に的確な回答が返ってきた(が,またもや報告が遅れてすまない…). 基的には,彼のブログ「きまぐれ日記」の2007年7月8日の記事「AjaxIMEのHTTPサーバは pre-pthread」に簡単な説明が掲載されているとのことである(なお,この時には直前に彼の同僚の高林哲氏のブログの「C++と Pthreads でミニマルなHTTPサーバを書く」という記事が投稿された直後であり,こういう技術的議論がすぐ波及していく会社の雰囲気というのはいかにも活気があっていいよね…).というわけで,この記事と彼の返事をアーキテクチャ的な観点から簡単にまとめておく. HTTPサーバは,事前にスレッドを生成・Mutexを使って排他的にaccept()するタイプの自作の軽量サーバ. 仮名漢字変換スレッドは4つ生成しておき,リクエストを

    Ajax IMEに関する補足 - Cafe Babe
    sassano
    sassano 2008/02/19
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
    sassano
    sassano 2008/02/14