6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時に)単語の完全一致で見るからから低いのかな…という感じ。どの辺がネックになっているかというと、まあ本当に色々あって、一概には言えないんだけど、化学式がネックになっているところが結構ある。化学式を専門用語に含めるかどうかってところの問題もあるんだけど、umlsには化学式のものもかなり大量に含まれていて、とりあえず化学式も専門用語に含む方向で。化学式だと、普通の分野では複合名詞に入ってこないような , ` () といったものが入ってくるのが厄介なところである。ある程度は「これこれこういう場合は除去して…」とかルールベースでやってみたんだけど、