to: Tomblooは日本語のタグをどうやってインクリメントに絞り込んでるんだい? Twitter / griffin_stewie こんな流れ。 タグを結合(’ [‘で区切る) -> 全角が含まれてるかチェック(英語タグしか使ってないとAPIの無駄づかいになるから) -> Yahooの形態素解析エンジンでかなに変換(ここで得られるローマ字と入力のローマ字は違うため使わない) -> カタカナに変換 -> ローマ字テーブルを使って変換 -> タグを分解(’ [‘で分割)。 「atodeyomu」みたいになったら、普通の英語と同じ処理で「ady」とかにマッチする。 一度「/^ady/i」な正規表現で厳密マッチをして見つからなかったら、「/^a.*d.*y/i」な正規表現でルーズマッチさせて候補を集める。