※このエントリーに直接訪問された方は、前のエントリーをお読みになった上でお読みくださいませ。 序論 本エントリーは、 日本語(漢字、カタカナ、ひらがな)と英数字(英語、ローマ数字)との組み合わせに基づいた形態素解析による単語節の分解 分解による太文字処理(Bold表記) について、検証しています。 ページが重くなるため、順次アップしていきます。 2-1.序論 日本語は世界でも難解な言語のひとつであり、文字表記も表意文字である「漢字」*1と表音文字である「カタカナ・ひらがな」に分類できる。さらに、表音文字である英語と数字(ローマ数字)がある。 検索エンジンは、 検索クエリ(文字列)を処理(形態素解析)し、 その文字列と繋がりの強い文字列や意味などの要素を判定し、 Bold表記へと返す。 この際、自然検索(オーガニック)と有料検索(Adwords, リスティング広告)とでは判定要素が異なるため