タグ

ブックマーク / yujisoftware.hatenablog.com (3)

  • Wikipedia の本文データをデータベースに投入する手順 - 地平線に行く

    Wikipedia文データは、XML形式で公開されています。 (詳しい内容は、Wikipediaのダウンロードできるデータファイル一覧 | mwSoft が参考になります) これをデータベースに投入する手順として、xml2sqlを使う方法がよく紹介されていますが、Wikimedia では「これを使ったやり方は推奨しない」と明記されています。 かといって、importDump.php を使うには PHP 環境を用意しなくていけません。 なので、Java で動く MWDumper を使って jawiki-latest-pages-articles.xml.bz2 (Wikipedia文データ)を投入してみました。 ダウンロード データベース定義 (tables.sql) Wikipedia文データ (jawiki-latest-pages-articles.xml.bz2)

    Wikipedia の本文データをデータベースに投入する手順 - 地平線に行く
    t_a_o
    t_a_o 2013/06/06
  • Java7 で String クラスがリファクタリングされていました - 地平線に行く

    先日、ついに JavaSE 7 がリリースされました! そこで、早速ダウンロードして、Java7 のソースコード(src.zip)を Java6と比較してみたところ、公表はされていないのですが、ちょこちょことリファクタリングされていることがわかりました。 そこで、そのうち String クラスについて調べてみました。 splitメソッド - 独自処理による高速化 いままでは、String#split(〜) は正規表現 (Patternクラス) に処理を移譲するだけでした。 // (Java6) Stringクラス、2291行目〜 public String[] split(String regex, int limit) { return Pattern.compile(regex).split(this, limit); } それが、単純な区切り文字なら正規表現を使わないで独自に処理をす

    Java7 で String クラスがリファクタリングされていました - 地平線に行く
  • コミットコメントの書き方(我流) - 地平線に行く

    Subversionのコミットコメントは、人によって多々書き方が違います。 ただ、後でコミットの内容を確認した時に 何も書かれていなかった 書いてあっても一行だけだった となっていて、詳細が分からず、人に聞いたりドキュメントを探して確認する羽目になったことが何回もあります。 そうした経験から、コミットコメントを書く際には、あとで自分が困らないように、ほかの人が困らないように以下のようなポイントに気をつけて書いています。 一行目には、変更種別を書く 一行目には、必ず変更の種別を書くようにしています。 たとえば、 機能追加 仕様変更 不具合修正 リファクタリング などです。 また、仕事の時はそれと一緒に件名も書いて、太括弧【】に囲んで記述しています。 (例:【不具合修正:ログイン画面】) こうすると、変更理由をヒストリー一覧から探しやすくなります。 また、あとで見返したときに「このリビジョン

    コミットコメントの書き方(我流) - 地平線に行く
    t_a_o
    t_a_o 2010/12/01
    バージョン管理
  • 1