タグ

2009年4月6日のブックマーク (6件)

  • Aho Corasick 法 - naoyaのはてなダイアリー

    適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。 この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析Wikipediaはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法 任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

    Aho Corasick 法 - naoyaのはてなダイアリー
    Ctrans
    Ctrans 2009/04/06
  • 5分で実装可能なページの文字サイズ変更+クッキーに保存サンプル:phpspot開発日誌

    A Simple jQuery Stylesheet Switcher 5分で実装可能なページの文字サイズ変更+クッキーに保存サンプルが公開。 ページで、小・中・大のように文字サイズを変えられるようにしておくと便利ですね。 asahi.com の導入例 実装方法が、微妙に面倒という場合もこのサンプルを使えば簡単に実装できる筈です。 文字サイズに限らず、CSSを丸ごと変えてしまえるので、スタイルを変更して保存ということも簡単に出来ます。 デモページ HTMLは、次のように、href は # ですが、rel属性に付け替えたいcssを指定しておきます。 <ul id="nav"> <li><a href="#" rel="/path/to/style1.css">Default CSS</a></li> <li><a href="#" rel="/path/to/style2.css">Larg

  • ノンパラベイズを勉強してみる (6) まとめ - nokunoの日記

    長々と書いてきたベイズ関連のエントリについてまとめました。ノンパラベイズを勉強してみる (5) ベイズ階層言語モデルによる教師なし形態素解析 - nokunoの日記個人的には「言語モデルの性能最大化で、教師なし単語分割ができる」という基の部分が目からうろこでした。ノンパラベイズを勉強してみる (4) 階層Pitman-Yor過程 - nokunoの日記Pitman-Yor過程はディリクレ過程の拡張で、観測回数を実際より低く見積もるディスカウント項が追加されているのが特徴です。ノンパラベイズを勉強してみる (3) 階層ディリクレ過程 - nokunoの日記階層ディリクレ過程はその名の通りディリクレ過程に階層構造を持ち込んだもので、これを使うとN-gramモデルのスムージングを理論的に導出することができるというものです。ノンパラベイズを勉強してみる (2) ディリクレ過程 - nokunoの

    Ctrans
    Ctrans 2009/04/06
  • どうして中国人のキャラクターは「〇〇アルよ!」と言うのか調べてみた - ライブドアニュース

    映画が日で吹きかえられると、「そんなことないアルよ!」「そうアルかー!?」など、なぜか「アル」を語尾につけるキャラクター性が追加されて声をあてられる。「アル」をつけて話すキャラクターは、特にコミカルな性格をしていたり脇役に多い。日漫画小説でも、「〇〇アルよ!」と話す人キャラクターが多く登場し、それら作品を見ている私たちはそれが人のイメージとして植えつけられているが、実際に「そうアルかー!?」などと話す人に会ったことがない! もしかしてこれは、過去に何かしらの偏見や間違ったイメージが人のキャラクターとして植え付けられ、それがいまだに続いているだけなのでは!? 実際に「アル」を語尾につけて話す人と会ったことがない以上、マスコミに踊らされているのではと危機感を感じてしまった! ということで、どうして映画の吹き替えや漫画小説の人キャラクターは「〇〇アルよ!」と話すのかを知るべく、大使館な

    どうして中国人のキャラクターは「〇〇アルよ!」と言うのか調べてみた - ライブドアニュース
  •  なぜ「飛行体」でなく「飛翔体」なのか? - もじのなまえ

    確認しておきたいが、〈一般の社会生活において,現代の国語を書き表す場合の漢字使用の目安〉を示したのは日国政府だ。寡聞にして国民の中から澎湃として「漢字の混乱が極まっているので標準を示してくれ」との声が沸き上がった、などという話は聞いたことがない。つまり言い出したのは日国政府の側のはずだ。 制限でも目安でもどちらでもいい。そんなのは、きついか緩いかの差にすぎない。要するにこれは、国民一般が生活の中で使う字種・音訓・字体の範囲をさだめたものと理解している。同時に「公文書作成の要領」(1952年)により、日国政府は公文書を常用漢字表にもとづき作成すると、自分で決めたはずだ。 時あたかも「「新常用漢字表(仮称)」に関する試案」のパブリックコメント募集が開始されているが、ここでも〈コミュニケーションの手段としての漢字使用〉が高々と謳い上げられている。そのうえで191字を増やしたいとのご意向だ。

     なぜ「飛行体」でなく「飛翔体」なのか? - もじのなまえ
  • ブラウザ、メーラーのバックアップをまとめて行う·MailBrowserBackup MOONGIFT

    インターネットへの依存度が高まると逆にバックアップが重要視されるようになる。メールのデータは言うに及ばず、Webブラウザも作業の効率化のためには設定やアドオンが重要になる。その点が若干OSとは異なるだろう(OS自体はあまりバックアップしないだろう)。 Webブラウザ、メールクライアントを選択する ブラウザと一口にいっても最近では多種多様に揃ってきている。そんな各種ブラウザ、メーラーに対応したバックアップソフトウェアがMailBrowserBackupだ。 今回紹介するオープンソース・ソフトウェアはMailBrowserBackup、インターネット向けアプリケーションバックアップソフトウェアだ。 MailBrowserBackupは各種ブラウザ、各種メーラーそしてプラスαのアプリケーションに対応したバックアップソフトウェアだ。ブラウザはIE/Firefox/Google Chrome/Ope