[B! nlp] s99937のブックマーク

ネーミングはこれを知らずに作れない

ネーミングに困ったお客様必見。音相という概念からネーミングを客観的に分析することで、優秀なネーミングを得ることが出来ます。ネーミングに困ったお客様必見。優れたアイデアをご提供致します。ネーミングはこれを知らずに作れないお電話によるお問い合わせはこちら 046-848-1276 お問い合わせフォーム

s99937 2007/09/17

こんなものをおしえてもらった。しかも野比っすかｗ

nlp

リンク

Extended Named Entity Definition (Version 7.0.0)

前書き本文書は、拡張固有表現階層の定義を記している。拡張固有表現階層は、名前を中心とした単語の意味の人工的な分類であり、個人的な主観に寄っている部分が非常に大きい。その責任の所在を表わすために、本拡張固有表現階層(Extended Name Entiｔy 以下ENE)の定義の名前に個人名を付けた。ただ、より広範囲の人に使ってもらうこと、より良い物にすることを目標にしており、コメント、指摘などを広く受け入れたい。構成本定義書は以下のような構成になっている。まず、本定義書はハイパーリンクを利用したｈｔｍｌ形式になっている。これはマニュアル利用者が関連事項を容易に探せることを目標としている。 l「階層の全体図」は視覚的に階層構造全体が見える図になっている。 l「TOP以下の階層の全リスト」では固有表現のリストがあり、そこからはそれぞれの固有表現の定義へリンクが張られている。 l次に

s99937 2007/09/12

すんごい力が入ってる資料。参考になりまくり。

nlp

リンク

Topic modeling: syntactic versus semantic

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) Topic modeling has turned into a bit of a cottage industry in the NLP/machine learning world. Most seems to stem from latent Dirichlet allocation, though this of course built on previous techniques; the most well-known of which is latent s

s99937 2007/08/24

あとでよむ

nlp

リンク

Mark Steyvers – Research of Mark Steyvers

Department of Cognitive Sciences University of California, Irvine mark.steyvers@uci.edu Research Areas Learning & MemoryHow can we leverage large-scale data to analyze the learning trajectories across individuals and cognitive tasks? How do we develop computational models to explain what is learned when individuals improve a skill?Cognitive Skill Acquisition & TransferHow can we leverage large-sca

s99937 2007/08/03

Topic Model関係では今までで一番まとまってるかも。とくにパラメタ推測周りはかなりよさげ（まだよんでないけど）

リンク

Re: CRFパラメータ学習について (mecab-users 95) - MeCab - OSDN

Taku Kudo taku****@chase***** 2006年 4月 29日 (土) 04:04:37 JST 前の記事 [mecab-users 94] Re: CRFパラメータ学習について記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] 工藤です > > ipadic の場合38,000文(約38MB) の学習コーパスを学習するのに 2~3Gの > > メモリがいります。JUMANの辞書は、曖昧性がかなありあるので、 > > 同じぐらいのサイズの京都大学コーパスを使うのに、20GB ぐらい > > いります。 > > こちらのコーパスは70MBぐらいありました。メモリ20GBとなると、64bit > CPUじゃないと処理できないですね。そうですね。ipadic はなんとかできるのですが、JUMAN の辞書は、 Opteron マシンで学習しています

s99937 2007/08/02

ちょうでっかいコーパスでCRFの訓練をするヒント

リンク

価格.comに技術を使った新機能，複数モールの商品のスペック比較を可能に

「価格.com」を運営するカカクコムは7月23日，商品を探しやすくする機能を追加した。「楽天市場」や「Yahoo!ショッピング」といった主要インターネット・ショッピング・サイトの商品を横断的に検索できる「ショッピングサーチ」に機能を付加した。独自の自然言語処理技術を使って，店舗が掲載している商品の説明文を解析。その結果を基に，寸法や色，素材など，商品の属性情報に応じた絞り込み検索ができるようにした（図）。ニーズが高いインテリア分野から始め，8月中にもサプリメント分野に拡張する計画だ。インテリアの商品数は7月時点で約70万件である（インテリアの検索ページ）。ショッピングサーチのトップページでインテリアを指定した場合，ページの上部に配置されているボタンやメニューで，椅子や机といった大分類とともに，高さ・横幅・奥行きといった寸法，色，使用している素材などが指定できるようになっている。検索ボタン

s99937 2007/07/24

おもろそげ

nlp
business

リンク

なんか3(仮名): TinySVM で足し算のテスト

svm関係は日本語のドキュメントが少な杉。わけのわからない数式とかはいっぱいあるけど。どうやって遊べばいいの? 実態(いったい)。と、はてなマークが点滅しまくります。一応、こんな風にしたら遊べました。もしかしたら、間違っているかもしれませんけど、闇の中で迷っているよりはマシかな。ぱくりインスパイヤ先 SVMlight MySVM に関する Tips TinySVM: Support Vector MachinesのサイトのBinary package for MS-Windowsからバイナリをダウンロードします。んで、解凍すると、bin というディレクトリの中にプログラムが入っています。 svm_learn.exe 学習プログラム svm_classify.exe 分類プログラム学習データを用意します。 svm.learn.dat というファイルに以下をコピペしてください。

s99937 2007/07/15

なｗｗそんなナナメ上な使い方がｗｗｗ（と思ったらRegressionだった)

リンク

FlexCRFs: Flexible Conditional Random Fields

FlexCRFs is a conditional random field toolkit for segmenting and labeling sequence data written in C/C++ using STL library. It was implemented based on the theoretic model presented in (Lafferty et al. 2001) and (Sha and Pereira 2003). The toolkit uses L-BFGS (Liu and Nocedal 1989) - an advanced convex optimization procedure - to train CRF models. FlexCRFs was designed to deal with hundreds of th

s99937 2007/07/15

ちょっと読んでみようかという気になった

nlp

リンク

Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics

s99937 2007/07/15

明日読む。

リンク

Multiclass learning as multitask learning

s99937 2007/07/14

先月あたり考えていたことに近いかも

リンク

Structured Bayesian Nonparametric Models with Variational Inference ACL Tutorial Prague, Czech Republic June 24, 2007 Percy Liang and Dan Klein Probabilistic modeling of NLP • Document clustering • Topic modeling • Language modeling • Part-of-spe

Structured Bayesian Nonparametric Models with Variational Inference ACL Tutorial Prague, Czech Republic June 24, 2007 Percy Liang and Dan Klein Probabilistic modeling of NLP • Document clustering • Topic modeling • Language modeling • Part-of-speech induction • Parsing and grammar induction • Word segmentation • Word alignment • Document summarization • Coreference resolution • etc. Recent intere

s99937 2007/07/11

ACLのチュートリアル資料

リンク

Collapsed Gibbs

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) (The contents of this post are largely due to a conversation with Percy Liang at ACL.) I'm a big fan of Gibbs sampling for Bayesian probl ems, just because it's so darn easy. The standard setup for Gibbs sampling over a space of variables a

s99937 2007/07/10

おもろい

リンク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

s99937 2007/06/23

なんという。

リンク

ONLINE LEARNING OF COMPLEX CATEGORICAL PROBLEMS THESIS SUBMITTED FOR THE DEGREE OF “DOCTOR OF PHILOSOPHY” BY Yacov Shlomo Crammer SUBMITTED TO THE SENATE OF THE HEBREW UNIVERSITY AUGUST 2004 This work was carried out under the supervision of Prof. Yo

s99937 2007/06/21

いつかよむ

リンク

ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開ニュース - CNET Japan

ヤフーは6月18日、開発者向けサイト「Yahoo!デベロッパーネットワーク」において、日本語の文章を解析できるAPI「日本語形態素解析 Webサービス」を公開した。日本語形態素解析 Webサービスは、ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてきた形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開するもの。このエンジンは、ヤフーのブログ検索や商品検索などのテキスト処理、ブログ検索の「評判検索機能」、「まとめ検索機能」などのテキストマイニング処理にも利用されている。このAPIを利用することで、開発者は解析対象となる日本語の文章を形態素に分割し、品詞や読み、基本形を取得できるほか、対象となる文章に多く含まれている単語、その文章を構成する特徴的な単語などを把握することが可能だ。また、すでに公開済みのAPIから取得したデータを解析することもでき

s99937 2007/06/19

5万件*100KBだとmax5G/dayか。それなりに十分だし、辞書周りの作りこみがやたら激しい。すげー

nlp
search

リンク

TagChunk: A Joint POS Tagger and Syntactic Chunker

TagChunk: A Joint POS Tagger and Syntactic Chunker Hal Daume III () This is a preliminary release of the joint part of speech (POS) tagger and syntactic chunker described in the original ICML 2005 Learning as Search Optimization paper (this is similar, but not identical to the one described in that paper -- it is trained on a different subset of the data and not as much care was taken to tune hype

s99937 2007/06/19

POS tagger & Chunker Using SEARN けっこう性能いいらしい

nlp
parser

リンク

MSTParser Download

MSTParser Download !!UPDATE!! This page will soon be obsolete. The new MSTParser page is now a sourceforge project. This new project was started by Jason Baldrige and Ryan McDonald to make it easier for new features to be added to the parser. Code will be available soon. Try it out here!! MSTParser (v0.2) This is a simple web-page to download the implementations of the parsers described in: Non

s99937 2007/06/19

MIRAでできたParser

nlp
parser

リンク

http://www.cis.upenn.edu/~crammer/code-index.html

s99937 2007/06/08

MIRAの実装はっけーん

リンク

NTCIR 意見分析パイロットタスク

英語意見参加者のためにOpinionValidatorEN.jarを公開します。英語のCSVファイルのフォマットが正しいかどうか確認するために使って下さい。Run like: java -classpath "OpinionValidatorEN.jar" jp.ac.nii.devans.opinion.CSVValidator FILE1 FILE2 ... FILEN.(2006/12/13) フォーマルランのスケジュールを更新しました! (2006/10/10) CFP とタスク定義をご確認ください! (フルサイズ) or (軽量サイズ [PDF]) (2006/07/19) NTCIR 意見分析パイロットタスク Web ページを開設しました! (2006/07/19)

s99937 2007/06/05

こんなものがあったということを知らなかった(笑)

nlp
nii

リンク

http://people.csail.mit.edu/jrennie/20Newsgroups/

s99937 2007/05/23

備忘

リンク

はてなブックマーク

タグ

関連タグで絞り込む (33)

nlpに関するs99937のブックマーク (60)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス