[B! nlp][dev] nobusueのブックマーク

Lotus Notes データベースからアイコン画像を取り出す(1)

nobusue 2011/06/10

リンク

非構造化データ分析技術のオープンソース実装「Apache UIMA 2.3」リリース | OSDN Magazine

Apache Software Foundation（ASF）のApache UIMA開発コミュニティは1月28日、UIMA（Unstructured Information Management Architecture）のオープンソース実装「Apache UIMA 2.3.0」を発表した。ASF内のプロジェクトページより入手できる。 UIMAは、米IBMが自然言語処理技術として開発した技術で、テキスト、画像、動画などの非構造化データを分析し、関連性を見つけることができる。IBMは2005年にUIMAをオープンソースとして公開、2006年よりASFのインキュベータプロジェクトとして開発が進んでいる。UIMAは2009年には、標準化団体OASIS（Organization for the Advancement of Structured Information Standards）により

nobusue 2011/05/16

UIMA]

dev
nlp

リンク

Wikipedia API（検索＆パース）を作りました | Tokyo O life

最近、Wikipediaのデータを活用したサービスが増えている。ただし、先日WikipediaのダンプデータをDBに投入するで紹介したように、Wikipediaはサーバから叩けるAPIを提供していない。不定期にダンプデータが提供されているので、それを自分のサーバのデータベースに投入して使うことは可能なのだが、収録されているデータは、Wikiのマークアップがついたままの生テキストなので、使い勝手がよくない。以前から提供されているSimpleAPI「Wikipedia」は、たぶんこのダンプデータを使って、独自に検索APIを提供しているのだと思うが、複数の検索結果を一度に返してくる。簡易な要約文しか提供されない。という制約があって、Wikipediaに収録されている豊富なデータを活用するには、ちょっと足りない感じがする。そこで、Wikipediaのマークアップを解釈して、XMLに変

nobusue 2011/03/16

dev
nlp

リンク

Tokyo O life - ずばぴたテック » WikipediaのダンプデータをDBに投入する

最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか？ Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上

nobusue 2011/03/16

dev
nlp

リンク

ログインしてください：日経クロステック（xTECH）

会員限定サービスです月額プランが10月末まで無料お申し込み会員の方はこちらログイン日経クロステック TOPページ

nobusue 2011/03/10

Google Books Ngram Viewerは使えそうだ

dev
nlp

リンク

Apache UIMA - Apache UIMA

Welcome to the Apache UIMA™ project. Our goal is to support a thriving community of users and developers of UIMA frameworks, tools, and annotators, facilitating the analysis of unstructured content such as text, audio and video. What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge t

nobusue 2011/03/09

結構前からオープンソースで公開されてたんですね

dev
nlp

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nobusue 2011/03/09

Watson君の実装に使われてる非構造化データ処理フレームワーク

dev
nlp

リンク

Java製形態素解析エンジン「Igo」を試してみる

IgoはJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoはJavaで形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです（詳細は公式サイト参照）。 Igo - Java 形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat

nobusue 2011/02/24

リンク

shin3tky blog: テキストの分かち書き

nobusue 2011/02/24

リンク

nokunoの日記

引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f

nobusue 2011/02/18

dev
nlp

リンク

Gomoku: 辞書込みの形態素解析器 - sileのブログ

IgoをベースにしてJARファイルに辞書データを同梱した形態素解析器を作成した。名前は同系統のGomoku(ver 0.0.1)。特徴開発コンセプト(?)は「JARファイルのみで形態素解析」と「サイズを(比較的)小さく」の二点。このJARファイル一つで形態素解析が行える(外部の辞書データ不要)、という点が最大の特徴。ただし、その分辞書のカスタマイズ性には乏しい。 ※ 辞書を変更する場合はjarファイルごと取り替える必要があるその他の特徴を列挙: 辞書データサイズがIgoより小さい辞書込みJARファイルのサイズは4MB程度。解凍時は10MB程度*1。※ Igoは辞書サイズは40MB程度辞書のデータサイズを節約するために、形態素の素性から品詞以外の情報を除外そのため原型や読み等の情報を解析結果から得ることは不可能 (デフォルトの)辞書にはIPADIC(mecab-ipadic