タグ

2011年2月16日のブックマーク (4件)

  • 『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』

    Hattori です。以前書いた記事の冒頭 で、”今度はシリーズで何かエントリを書きたい ! ”と軽いノリで一文を表記しておいたら、ホントにやることになりました。 弊社のエンジニア組織の特徴のひとつに、手を上げる・声を上げると、『じゃ、やってよ。』というノリで返ってくるという事が挙げられるのですが、今回もその例に漏れなったわけですね・・・。シクシク・・・。 というわけで、何を書こうかなぁって話しなんですが・・・。私の場合アルゴリズム系の話しかできそうにないので、毎回ポツポツとマイナーで極一部の人にしかウケないテーマを紹介して行こうと思います。 で、初回の今回は SimilarityJoin 関連のアルゴリズムで "MPJoin" というやつを紹介したいと思います。 ■ Similarity Join とは何ぞや? まず最初に SimilarityJoin [1] の定義なんですが、ざっくり

    『MPJoin を使った類似データ抽出 ―アルゴリズムシリーズ 1―』
  • JavaからExcelデータを簡単操作のオープンソース「ExCella」 | エンタープライズ | マイコミジャーナル

    情報処理推進機構 情報処理推進機構(IPA)はオープンソース情報データベース「OSS iPedia」に新しくExCellaを利用した基幹業務システム開発の事例を追加した。基幹業務システムの開発にあたり、2次加工の容易さから10種類の帳票をExcel形式のデータとして出力するという要件を満たすため、開発用コンポーネントとしてExCellaを利用したという内容になっている。 ExCellaはLGPL v3のもとオープンソースソフトウェアとして公開されているソフトウェア。JavaからExcelのデータを操作する場合、既存のOSSライブラリの多くは低レベルAPIのみを提供しているため、開発にはそれ相応の開発期間が必要になっていた。ExCellaでは高レベルAPIが提供されており、Excelデータを操作する部分の開発工程を削減できる効果があると紹介されている。 日ではExcelを業務データの重要な

  • AmazonEC2を何倍もお得に使う方法

    今回はシャノンでAmazonEC2を使う機会がありましたので、そのお得な使い方を紹介したいと思います。 「サーバの仮想化」今では当たり前になってきました。1台のサーバで複数台動かす事で、一人一開発環境を実現したり、アプリケーションをバージョン毎に保管できたりと至れり尽くせりです。 シャノンでも100台以上のサーバを仮想化して使っています。仮想化することで、開発環境を5分で用意できるようになりましたし、サービスを提供している、いわゆる番環境のサーバ増設も1時間以内でできるようになりました。 アプリケーションサーバ、キャッシュサーバ、データベースサーバ、ロードバランササーバ、メールサーバ、開発環境、テスト環境用サーバ等々と数十種類のサーバイメージを管理しています。 当に便利な時代になりました。 ■ シャノンではOpenVZを使っています シャノンではOpenVZという仮想化ソフトを使ってい

  • Args4jを使ってコマンドライン引数を処理する - terurouメモ

    Javaでコマンドライン引数を処理したいなー、でもApache Commons CLIは煩雑だよなー、などと思いながら他のライブラリを探していたら、Args4jという簡単に使える素敵ライブラリを見つけた。Annotationを使ってすっきり書ける。 Args4jのバイナリはなんか公式ページで配布されていなかったので、mavenリポジトリの方から取ってきた。 ということでShellっぽいサンプルプログラムを。完全に使い方を把握してる訳じゃないけど、Args4jが提供してるクラスは大して数も多くないし、いざとなったときに調べたらすぐにわかりそうな感じ。 import org.kohsuke.args4j.Argument; import org.kohsuke.args4j.CmdLineException; import org.kohsuke.args4j.CmdLineParser; i

    Args4jを使ってコマンドライン引数を処理する - terurouメモ
    yass
    yass 2011/02/16