タグ

linguisticsとDBに関するsstのブックマーク (1)

  • 漢字を類似度検索可能にする (polog)

    アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。 これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsプロジェクト作ってscript/runnerした。 ファイル rake db:migrateで create_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのと create_table :similarities do |t| t.column :c

  • 1