xiangzeのブックマーク - はてなブックマーク

オープンソースとアルゴリズムの特許 - ny23の日記
GPL で公開していた構文解析ライブラリで実装していたアルゴリズム（の一つ）について，特許が出ているという指摘を受けたので，GPL で公開するのは不適切だと判断して，当該アルゴリズムの実装を取り除いた．このアルゴリズムは，同じくオープンソースな解析器 (LGPL/BSD) でも実装され公開されていたので，すっかり ok だと油断していた．確かに企業研究者の提案手法なので，特許が取られている可能性は頭の隅にはあったのだけど，それにつけても非常に残念だ．今回のアルゴリズムは，かんたん特許検索で提案者名を入れてもそれこそ「かんたんに」出てくるので，自分自身の過失だろう．が，それで済ませていいのだろうか．[最後にオチあり] 以前，Bayesian Setsの特許について - のんびり読書日記を読んだ時も思ったけど，アルゴリズム（あるいはソフトウェア）の特許というのは，オープンソース開発者にとって
xiangze 2018/01/21
特許

algorithm
リンク
情報系の国際会議・ジャーナルのランキング - ny23の日記
論文が簡単に採録されるのも複雑な気分 - ny23の日記を受けて，自分の専門の周辺分野（情報系）でどのようなジャーナルが権威があるのか（よく引用されるのか・知名度があるのか）知っておこうと思った．少し調べてみたら，Impact factor (IF, Garfield '72)，Conference PageRank などに基づく情報系の国際会議・ジャーナルのランキングを行っているサイトが見つかった*1． AMiner このランキングの上位から，普段主に投稿したり読んだり査読したりする国際会議・ジャーナルをさらってみると， 8 SIGMOD: ACM SIGMOD International Conference on Management of Data 16 VLDB: International Conference on Very Large Data Bases 19* VLDB
xiangze 2015/01/10
論文

機械学習
リンク
密／疎ベクトルのトレードオフを調べてみた - ny23の日記
k-means を実装していて，疎ベクトルと密ベクトルのトレードオフ（距離計算の速度差）が気になったので軽く実験してみた．具体的に知りたかったのは，どれぐらい疎なら疎ベクトルを使った方が距離計算が速くなるか，という問に対する答え．空間使用率の改善については sparse vector における index と value の型のサイズ比でほぼ自明に分かるが，速度に関してはコンパイラの最適化の加減もあるので良く分からない．以下がテストコード（ややずぼらな実装）． [追記] 折角なので，Eigen 3.0-beta2 とも比べてみた． #include <sys/time.h> #include <cstdio> #include <cstdlib> #include <cstring> #include <vector> #include <tr1/random> #include <eig
xiangze 2012/04/30
eigen

C++

機械学習
リンク
車輪の再発明は避けるべき，を実感 - ny23の日記
ここ最近，Percy Liang の Brown クラスタリングの実装を使って単語クラスタリングしていたのだけど，感覚的に実行速度が遅いと感じたので，これぐらい簡単なアルゴリズムなら再実装しても良いかと思って，以下の原著を見ながら C++ で実装してみた． Class-based n-gram models of natural language (Computational Linguistics, 1992) 単純なだけに300行ぐらいで実装できたが，相互情報量の損失の計算をサボるところが少し面倒で，既存実装と結果が一致するまでに丸一日かかった*1．自分の実装と既存実装の処理速度を比べたところ 5-10 倍ぐらい速くなっており（大規模データを扱う場合には実行速度が 2 倍違うだけでも致命的なので）再実装して良かったと一瞬ぬか喜びしたのだけど，同じ C++ で同じアルゴリズムを実装して
xiangze 2011/07/12
nlc

programming
リンク
1