タグ

2009年4月7日のブックマーク (4件)

  • Aho Corasick 法 - naoyaのはてなダイアリー

    適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。 この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析Wikipediaはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法 任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

    Aho Corasick 法 - naoyaのはてなダイアリー
  • とりあえず何ができるか知りたい人にはおススメ - mkawano’s diary

    統計学のお勉強で読んだの一冊。統計学を「できるだけやさしく」解説した内容で、扱っているテーマも割となじみの深いものが多いです。レベルとしては、統計学の初学者、というか超入門書といっていいかもしれません。ただし、読んだ感じでは対象となる読者層は、学生よりも社会人ではないですかね。 すぐに使える統計学 作者: 菅民郎,土方裕子出版社/メーカー: SBクリエイティブ発売日: 2009/01/21メディア: 単行 クリック: 1回この商品を含むブログ (2件) を見る 統計学の基的なことは押さえてあります。とくに「何かのデータを集めてみたんだけど統計的にどうすればいいのか?」「統計の難しい話は嫌なんだけど」という方には、いいかもしれません。ただ、検定とか統計学ついてある程度しっかりした知識を勉強したい人には、説明が省略されたり統計学的な検定についてのいくつかの手法についての説明がないので、別

    とりあえず何ができるか知りたい人にはおススメ - mkawano’s diary
  • CS193P - Cocoa Programming | Announcements

    Dan Keen from Apple joined us today to talk about Bonjour and Streams. We had a successful experiment of distributing an app built with our class provisioning profile using a local wifi network. 17-BonjourAndStreams.pdf17-ZombieNav.zip

  • やってはいけない!!MySQLに悲鳴をあげさせる10の方法

    いつも「MySQLを使うときはこうするべき」という観点から記事を書いているが、今日は逆に犯してはいけない過ちをリストアップしようと思う。 1. 全てのカラムにインデックスをつけるデータベース初心者がもっともやってしまいがちな間違いはコレではないだろうか。インデックスはいい。検索がとても速くなるから。しかし、それと引き替えにインデックスは更新するときにコストがかかるし、その分多くのディスクスペースを消費する。特に更新にかかるコストは時に甚大で、該当するインデックスのページがキャッシュ上にない場合はディスクからいったんそのページを読み込まなければいけない。ディスクアクセスは動作にとても時間がかかるので、インデックスが多数、例えば全てのカラムに付いていたりすると「あれ?固まったか?」というような状態になってしまうことがあるだろう。インデックスは必要なカラムにだけつけるようにテーブルを設計しよう。

    やってはいけない!!MySQLに悲鳴をあげさせる10の方法