6月の間は出現頻度と連接頻度に基づく専門用語抽出にある論文の考え方にそって、C++とかRubyで実装していた。しかし、どうも精度や再現率が低い。id:theclaさんに結果を見せてみたところ「おしいのは結構あるんだけどねえ」という感じで、(精度とかを測る時に)単語の完全一致で見るからから低いのかな…という感じ。どの辺がネックになっているかというと、まあ本当に色々あって、一概には言えないんだけど、化学式がネックになっているところが結構ある。化学式を専門用語に含めるかどうかってところの問題もあるんだけど、umlsには化学式のものもかなり大量に含まれていて、とりあえず化学式も専門用語に含む方向で。化学式だと、普通の分野では複合名詞に入ってこないような , ` () といったものが入ってくるのが厄介なところである。ある程度は「これこれこういう場合は除去して…」とかルールベースでやってみたんだけど、
論文読んだりしているけど、実際にCRFを動かしたことがなかったり...ということで動かしてみる。動かすためにいくつか理解しないといけないことがあるので自分用メモ。 CRF++: Yet Another CRF toolkit 素性テンプレート Unigram まず簡単そうなところから。学習用の入力データがこんな感じになってるとして、3行目を今中心に見ているとしよう。 Input: Data He PRP B-NP reckons VBZ B-VP the DT B-NP << CURRENT TOKEN current JJ I-NP account NN I-NPこのとき、どういうテンプレートを用意しておくと、どういう素性に展開されるかを表にしたのがこれ。 template expanded feature %x[0,0] the %x[0,1] DT %x[-1,0] rokens %
The CRF package is a java implementation of Conditional Random Fields for sequential labeling developed by Sunita Sarawagi of IIT Bombay. The package is distributed with the hope that it will be useful for researchers working in information extraction or related areas. We have attempted to keep the core CRF package compact and barebones for ease of deployment. However, we have packaged additional
This page is no longer maintained and may contain outdated information. New Website 2020 On August 26 2020, the Project Gutenberg website underwent some major changes. These changes had been previewed since early 2020, and visitors to the old site were invited to try the new site, including giving input via a brief survey. The old site is no longer available. If you found yourself on this page une
The fact that Foursquare is looking for a data scientist, first reported earlier this week, is hardly news. They’re just pursuing what many companies will eventually do as they try to tap the river of data they’re generating to improve their products or build new business opportunities. Indeed, data scientists will increasingly become vital employees as companies create and use more and more data.
Effective Practices for Coding with a Chat-Based AI In this article, we explore how AI agents are reshaping software development and the impact they have on a developer’s workflow. We introduce a practical approach to staying in control while working with these tools by adopting key best practices from the discipline of software architecture, including defining an implementation plan, splitting ta
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.
オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作ってみた。 言語判定プラグイン for Apache Nutch - Language Detection Library for Java プラグイン本体はとても小さいので、言語判定ライブラリに同梱されている。 上のドキュメントの通りに設置すれば、以下のように様々な言語での判定が出来るようになる。 利用方法は上のドキュメントを読んでもらうとして、ここでは言語判定プラグインはどのように作られているか、という話をしよう。 plugin.xml Apache Nutch のプラグインと言語判別
タイム「今年の人」受賞挨拶にジュリアン・アサンジ乱入の巻:SNL - Julian Assange vs. Mark Zuckerberg hahaha... Julian Assange, Readers' Choice for TIME's Person of the Year 2010, interrupted Mark Zuckerberg's 'Person of the Year' thank-you message on last night’s Saturday Night Live. 米タイム誌が、読者投票トップのウィキリークス創始者ジュリアン・アサンジを置いて10位のフェイスブック創始者マーク・ザッカーバーグを「今年の人」に選んだが、その授賞の挨拶をするザッカーバーグにアサンジが突然割り込む設定のコメディ(動画上)が夕べ深夜番組サタデーナイトライブで流れて、ちょっとした
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く