たまたま#SolrJPのハッシュタグを見ていたら、exabugsさんのつぶやきを見つけて、Solrのソースを追いかけてみたりしました。折角良いネタを頂いたので、しっかりblogのネタにさせてもらいますw この問題はSolr3.1からなのかどうかは調べていませんが、確かにhighlightingの結果として返される文字列は、非ASCII文字が数値文字参照になっています。 試しにSolr3.1で「日本語テスト」という文字列に対して「日本語」で検索してみます。 ブラウザで見ると と、問題無く表示されているように見えますが、実際に返されているXMLを見てみると このように非ASCII文字が数値文字参照になっている事が分かります。 この事には気付いていたのですが、私には実害があまり思い当たらなかったので放置していました。 英語圏で作られたライブラリのコードで何度か見かけた事があります。 むかーしむか