Apache Software Foundation(ASF)のApache UIMA開発コミュニティは1月28日、UIMA(Unstructured Information Management Architecture)のオープンソース実装「Apache UIMA 2.3.0」を発表した。ASF内のプロジェクトページより入手できる。 UIMAは、米IBMが自然言語処理技術として開発した技術で、テキスト、画像、動画などの非構造化データを分析し、関連性を見つけることができる。IBMは2005年にUIMAをオープンソースとして公開、2006年よりASFのインキュベータプロジェクトとして開発が進んでいる。UIMAは2009年には、標準化団体OASIS(Organization for the Advancement of Structured Information Standards)により
最近、Wikipediaのデータを活用したサービスが増えている。 ただし、先日WikipediaのダンプデータをDBに投入する で紹介したように、Wikipediaはサーバから叩けるAPIを提供していない。不定期にダンプデータが提供されているので、それを自分のサーバのデータベースに投入して使うことは可能なのだが、収録されているデータは、Wikiのマークアップがついたままの生テキストなので、使い勝手がよくない。 以前から提供されているSimpleAPI「Wikipedia」は、たぶんこのダンプデータを使って、独自に検索APIを提供しているのだと思うが、 複数の検索結果を一度に返してくる。 簡易な要約文しか提供されない。 という制約があって、Wikipediaに収録されている豊富なデータを活用するには、ちょっと足りない感じがする。 そこで、Wikipediaのマークアップを解釈して、XMLに変
最近、Wikipediaのデータを引用して表示するサービスが良くある。どうやって、実現しているのか? Wikipediaには、収録データをHTMLではなくXMLで返してくれるモードもあるが、これはWebブラウザ向けのサービスで、PHPなどでアクセスして取得しようとすると、403のエラーで拒否される。また、「サーバーに負担がかかるので、クローリングしないでください」と明記されている。 その代わり、Wikipediaの全データをXML形式でダンプしたものが自由にダウンロードできるようになっている。これを読み込んで、自分のデータベースサーバに投入して使えばいいのだ。データベースはMySQLやPostgreSQLに対応し、投入用のツールも用意されている。 Wikipediaのシステムである、MediaWikiのソースコードも提供されていて、これに含まれているimportDump.phpを使う例が上
会員限定サービスです 月額プランが10月末まで無料 お申し込み 会員の方はこちら ログイン 日経クロステック TOPページ
Welcome to the Apache UIMA™ project. Our goal is to support a thriving community of users and developers of UIMA frameworks, tools, and annotators, facilitating the analysis of unstructured content such as text, audio and video. What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge t
IgoはJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。 そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoはJavaで形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです(詳細は公式サイト参照)。 Igo - Java形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat
引き続き東大の「創造情報学連携講義VII」より賀沢さんの課題1でもある、IBMモデル1の実装を行いました。創造情報学連携講座IBMモデル1のEMアルゴリズムを実装してサンプルデータで結果を確認せよという問題です。 #!/usr/bin/env python from collections import defaultdict def train(corpus): pair = defaultdict(float) for english, forein in corpus: for e in english.split(" "): for f in forein.split(" "): pair[(e,f)] += 1. print 'pair:', pair t = defaultdict(float) for e,f in pair.keys(): t[(e,f)] = 0.25 f
IgoをベースにしてJARファイルに辞書データを同梱した形態素解析器を作成した。 名前は同系統のGomoku(ver 0.0.1)。 特徴 開発コンセプト(?)は「JARファイルのみで形態素解析」と「サイズを(比較的)小さく」の二点。 このJARファイル一つで形態素解析が行える(外部の辞書データ不要)、という点が最大の特徴。 ただし、その分辞書のカスタマイズ性には乏しい。 ※ 辞書を変更する場合はjarファイルごと取り替える必要がある その他の特徴を列挙: 辞書データサイズがIgoより小さい 辞書込みJARファイルのサイズは4MB程度。解凍時は10MB程度*1。※ Igoは辞書サイズは40MB程度 辞書のデータサイズを節約するために、形態素の素性から品詞以外の情報を除外 そのため原型や読み等の情報を解析結果から得ることは不可能 (デフォルトの)辞書にはIPADIC(mecab-ipadic
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く