タグ

ブックマーク / kazama.hatenablog.com (2)

  • 絵文字の符号化は何が難しいのか? - Cafe Babe

    安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている. 絵文字はアニメーションするものがある(爆) 絵文字には色の区別がある.しかし,今まで

    絵文字の符号化は何が難しいのか? - Cafe Babe
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • 1