最終更新: 2014-12-15 説明を簡潔にするため、JavaScriptのみを例に挙げます。 なお、現在はTwitter本家から正式なライブラリが公開されているので、そちらを参考にするのがいいと思います。 https://github.com/twitter/twitter-text 以下は、私が勝手に作り上げた非公式な抽出方法です。 日本語ハッシュタグを抽出する正規表現見やすくするために改行とタブを入れています。 おおまかに説明すると、タグとして使える文字というものがあり、それがハッシュの直前に存在していないかを調べています。 また、ハッシュタグの直後に別のハッシュタグが接していないかどうかを否定先読みで調べています。 / (?:^|[^0-9A-Za-z_〃々ぁ-ゖ゛-ゞァ-ヺーヽヾ一-龥0-9A-Za-zヲ-゚]+) [##] ( [0-9A-Za-z_〃々ぁ-ゖ゛-ゞァ-ヺーヽ