タグ

ブックマーク / kishi.hatenadiary.org (2)

  • RSSをパースするときの制御文字への対処 - public static void main

    DOMを使ってRSSをパースしているとたまに以下のエラーがおきることがあります。(Livedoorブログ、FC2、Amebaブログとかが多い) An invalid XML character (Unicode: 0x14) was found in the element content of the document.Unicode: 0x14の部分は0xbだったりいろいろです。 原因は、絵文字を使っていたり、文字化けしたりといったことによって制御文字が挿入されたためのようです。 ASCIIコードでは0x00〜0x1Fと0x7Fのコード範囲が制御文字になり、これが含まれているXMLはinvalidになるようです。 Javaの場合、RSSをパースする前に以下のようにこの制御文字を削除しました。 str.replaceAll("[\\00-\\x1f\\x7f]", ""); 上記のコード

    RSSをパースするときの制御文字への対処 - public static void main
  • グラフを扱うJavaライブラリ「Jung」の紹介 - Twitterのグラフ構造を視覚化 - public static void main

    java-ja 第12回のLTで話そうと思ったのですが、出番がなかったので資料をブログで公開しておきます。 Jungは研究などでグラフ構造が出たときに、理解しやすくするために可視化するのに使っています。他にもいくつかグラフを扱うライブラリは存在していますが、日語の資料があったのと拡張可能なことが多かったのでJungを結果的に使うようになりました。 以下はそのJungについての簡単な解説です。 Jungとは Jungの正式名称はJava Universal Network/Graph Frameworkで、ネットワーク(グラフ) 構造の分析や視覚化を行うためのJavaのOSSライブラリです。グラフ理論、データマイニング、ソーシャルネットワーク分析のアルゴリズムを数多く実装しています。 安定バージョンは1.7.6で最新は2.0betaで、BSDライセンスで使用できます。 http://jun

    グラフを扱うJavaライブラリ「Jung」の紹介 - Twitterのグラフ構造を視覚化 - public static void main
  • 1