PHPのDOMDocumentまわりには、文字化けと数値文字参照への強制変換という問題があるようです。 文字化けについては、DOMDocument->loadHTMLのマニュアルにコメントがありました。 Pay attention when loading html that has a different charset than iso-8859-1. Since this method does not actively try to figure out what the html you are trying to load is encoded in (like most browsers do), you have to specify it in the html head. If, for instance, your html is in utf-8, make sur