タグ

2009年5月19日のブックマーク (6件)

  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

    mogwaing
    mogwaing 2009/05/19
    zero-frequency problem など
  • 高速な算術圧縮を実現する「Range Coder」

    はじめに 記事では、全体のサイズが最小となる算術圧縮を高速に実現するRange Coder(以下RC)を紹介します。 算術圧縮は、各文字の出現確率が分かっている場合にそのデータを最小長で表現可能な符号法です。各文字に固定の符号を割り当てるHuffman法とは違い、符号化を状態更新とみなし、すべての文字を符号し終わった後の状態を保存することで符号化を実現します。これにより1文字単位の符号長を1bitより細かく調整することが可能となります。 算術符号は圧縮率が高い反面、ビット単位の演算処理が大量に発生するため、符号化、復号化ともにHuffman符号に比べ遅いという問題点があります。今回紹介するRCは、算術符号の処理をバイト単位で行うことで高速な処理を可能にします。 また、算術圧縮については概要から説明します。 対象読者 C++の利用者を対象としています。データ圧縮の基礎を知っていることが望ま

    高速な算術圧縮を実現する「Range Coder」
  • 高速に符号/復号を行える最小冗長符号「Canonical Huffman Code」

    対象読者 C++の利用者を対象としています。データ圧縮の基礎を知っていることが望ましいです。 必要な環境 C++、32bit環境を想定しています。Windows XP上のVisual Studio C++ 2005、gcc 3.2.2で動作確認済みです。 Huffman Codeの概要 初めに、Huffman Code(以下、HC)について簡単に説明します。データ中に出現する各文字の出現確率が既に分かっている、もしくは予測できる場合に、多く出現する文字に対し短い符号を割り当て、あまり出現しない文字に対し長い符号を割り当てることで、データ全体の符号長を短くすることができます。このように各文字の符号の長さが違う符号(可変長符号)は、元のデータに間違いなく復元できる条件は必要ですが、HCはさらに次の条件を満たした符号を決定します。 瞬時復元可能である データ全体の符号長が最小である 「瞬時復元可

    高速に符号/復号を行える最小冗長符号「Canonical Huffman Code」
  • 未踏プロジェクトでこうすれば良い結果が得られるんじゃないかと思うTips - FutureInsight.info

    僕とid:kawatan、id:octobaの3名で開発したcoRocketsが評価されスーパークリエイタに認定されました。 http://www.ipa.go.jp/about/press/20090518.html スーパクリエイタに認定されたのは制度上僕だけなのですがGUI全般を担当したid:kawatan、Webシステム全般を担当したid:octobaと二人の協力なしでは開発はすすめられませんでした。二人にはとても感謝しています。現在、coRocketsは機能強化をしたversion1.1のリリースに向けて準備をすすめていますので、楽しみにお待ち下さい。 さて、せっかくですので僕なりに未踏体を通して感じた、こうすれば未踏でも良い結果が得られるんじゃないかと思う点をまとめておこうかと思います。 レビューのサイクルを回すことを重視 僕は普段は会社員として働いており、主に土曜日、日曜日

    未踏プロジェクトでこうすれば良い結果が得られるんじゃないかと思うTips - FutureInsight.info
  • IPA、未踏IT事業で「スーパークリエータ」12人を認定

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

    mogwaing
    mogwaing 2009/05/19
    たまたま名前が一番上だから出てる。得なのか?
  • kur.jp - スーパークリエーターに認定されました

    日付で,IPAよりプレスリリースが出てまして,私がスーパークリエータに認定されました. http://www.ipa.go.jp/about/press/20090518.html このページによるとスーパークリエータっていうのは, ソフトウェア関連の分野でイノベーションを創出できるような独創的なアイデアと技術、そして、それらを活用する能力を持つ、突出した若い逸材 らしいです. IPAって言うのは経産省の所轄団体ですから,こういうの事業は税金で運営されてるわけなんですよね.それはつまり国が私に期待してくれてるわけです. そう考えると,この先,中途半端なことはできませんし,何らかの形で国に還元しないとなぁ,と身が引き締まる思いです.