タグ

ブックマーク / j7400157.hatenadiary.org (2)

  • スペルミス修正プログラムを作ろう Ver. Java - techlog

    「第11回 Kansai.pm / スペルミス修正プログラムを作ろう - naoyaのはてなダイアリー」を読んで、面白そうだし、なんだか作れそうな気がした。 処理の概要はこんな感じ。 入力されたキーワードに対して、正しいスペルの候補を返す。 正しいスペルの候補ははてなキーワードのリストをから探す。 実装の概要はこんな感じ。 はてなキーワードのリストからN-gram(今回はbi-gram)インデックスを作成する。 インデックスから正解の候補を探す。 見つかった候補のJaroWinkler距離を求めて、距離の近いものを返す。 いろいろ調べてみると Lucene に以下のようなクラスがあった。 NGramTokenizer JaroWinklerDistance LevensteinDistance 名前の通りのクラス。素晴らしい素晴らしい。 N-Gram や JaroWinklerDistan

    スペルミス修正プログラムを作ろう Ver. Java - techlog
  • GCをみる - techlog

    GCの動きを見たいときは -Xloggc: や -XX:+PrintGCDetails をつけて、GCViewer で見ていた。 これは時系列でのGCの動きや、メモリの推移を知るには便利だけど、細かい動きについては解り辛い。概要を知るには便利だけど、細かく知りたい時は不便という感じ。 # 使いこなせていないだけかもしれないけど。 GCが起きるメモリリークプログラムをさくっと書いてみる。 import java.util.List; import java.util.ArrayList; public class GCTest { public static void main(String[] args){ List<String> list = new ArrayList<String>(); for(;;){ String str = new String("hoge"); list.

    GCをみる - techlog
    shrkw
    shrkw 2009/06/01
  • 1