タグ

パターンに関するBluetoothのブックマーク (3)

  • はてなへの問い合わせ(案) 下書き - 見た夢を淡々と記録するよ

    (念為追記)1月30日付はてなダイアリー日記で「長いキーワードが、先に現れた短い別のキーワードとしてリンクされてしまう」問題の仕様検討の告知がされています。 「最長優先」処理・「最左最長優先」処理に対するアンケートも行われているようですね。私が下記で挙げた[はてな夢日記]の件は、「記入の仕方(カテゴリ表記)を替えればいいじゃん。」で済む話なので、既に私を含めた数人の方は記入変更している旨見受けられます。もともと私の質問の主意は「この仕様は元に戻るのですか、それともこのままですか?」だったので、個人的にはさしたるこだわりも無く、「最長優先」・「最左最長優先」処理は「どちらでもよい」です。 ただ、一点心苦しいのは、下手に私が質問したせいで(?)[はてな夢日記]という非常にマイナーと思われるキーワードが今回の事例として挙げられている事です。より的確かつ豊富な事例で議論される事を期待しています。(

    はてなへの問い合わせ(案) 下書き - 見た夢を淡々と記録するよ
  • きまぐれ日記: Autolink: 前方最長一致ではなく最長キーワード優先一致を実現する

    Hatena のキーワード置換アルゴリズムがTRIE ベースの手法に変更になったようです。以前に AC法でやる方法の記事を書いたのですが、それと似たことをやってるのでしょうか。 AC法のやり方は単純で、前方から最長一致でキーワードを見つけていきます。これまでは長いキーワードから順番に見つけていく方法(最長キーワード優先一致)だったそうですが、前方から見つけていく方法だと短いキーワードが優先される場合があります。 http://d.hatena.ne.jp/ita/20060119/p1 http://d.hatena.ne.jp/hatenadiary/20060119/1137667217 文:あいうえおかきくけこさしすせそ KW1 いう KW2 うえおかき KW3 かきく KW4 きくけこさし という文でKW1-KW4のキーワードがマッチする場合、新しくなった方法では「いう」と「かき

  • キーワード置換アルゴリズム - ita’s diary

    http://d.hatena.ne.jp/hatenadiary/20060119/1137667217 うわーこれはこまったね。いままでは長いキーワードから抜き出していってたけど、TRIE 構造を使って文の前方からマッチを探して行くから短いのが優先されたりする。たとえば 文:あいうえおかきくけこさしすせそ KW1 いう KW2 うえおかき KW3 かきく KW4 きくけこさしという文でKW1-KW4のキーワードがマッチする場合、新しくなった方法では「いう」と「かきく」が抽出される。マッチがあっても何文字か進む間保留しとくとかの方法で解決できるのかな。LZ圧縮とかも辞書にマッチするパターンを番号で置き換えるとかしてると思ったんで、標準的なアルゴリズム何かあるんじゃないかねぇ。 追記:LZ系は保留はしない模様。ふーむ。 とりあえず、n文字のマッチがあった場合、これを候補1として仮採用し、

    キーワード置換アルゴリズム - ita’s diary
  • 1