[B! 形態素解析] agxのブックマーク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

agx 2007/11/02

リンク

辞書不要の形態素解析エンジン「マリモ」とは − ＠IT

2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日本語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。統計処理で単語部分を推定形態素解析とは、与えられた文を、文法上意味のある最小の単位（形態素）に区切る処理。「今日は晴れています」なら、「今日（名詞）／は（助詞）／晴れ（動詞）／て（助詞）／い（助詞）／ます（助動詞）」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

agx 2007/08/16

形態素解析

リンク

日本語形態素解析 - TETRIS 3

http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html 日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。 require "rexml/document" require 'open-uri' require "jcode" $KCODE = 'UTF8' require "cgi" class YahooMAService def initialize(app_id = "your_apikey", base_url="http://api.jlp.yahoo.co.jp/MAService/V1/parse") @base_url = base_url @app_id = app_id end def parse(sentence) @sentence = s

agx 2007/07/08

リンク

Yahoo 日本語形態素解析Webサービスと Mecab の比較 - 酒日記はてな支店

適当な (今日 feed 経由で収集した Web 上の) 文書を Yahoo のと Mecab に喰わせてみて、結果が食い違った部分を比較してみた。 surface を配列に入れて、Array::Diff で比較。特徴がみえるところを (主観的にだけど) 抜き出してみたら、こんな感じになった。 mecab: '[１] [９] [繁華] [街] [従業] [員] [けが]' yahoo: '[１９] [繁華街] [従業員] [がけ]' mecab: '[お] [怒り] [・] [・] [・] [(´] [・] [ω] [・] [｀)] [何] [度] [申し訳] [ない]' yahoo: '[お怒り] [・・・] [(] [´・ω・｀] [)] [何度] [申し訳ない]' mecab: '[代表] [団] [について] [国務] [長官] [記者] [会見] [として]' yahoo:

agx 2007/06/27

形態素解析

リンク

形態素解析辞書 UniDic

人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しましたムーンプリンセス. オンラインスロットゲームムーンプリンセスこのゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。スロットマシンのムーンプリンセスは、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします moonprincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。すべてのシンボルが雰囲気を強調するオンラインスロットゲームムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ

agx 2007/04/12

茶筅の辞書として利用できる

形態素解析

リンク

KH Coder: 計量テキスト分析・テキストマイニングのためのソフトウェア

研究ノート「計量テキスト分析ツールKH Coderによる分析結果の再現性」公開医療用語の辞書をご用意（無料）産学連携プロダクト「KH Coderオフィシャルパッケージ」発売中 KH Coderとは KH Coderとは、計量テキスト分析またはテキストマイニングのための自由ソフトウェアです。アンケートの自由記述・インタビュー記録・新聞記事など、さまざまなテキストの分析にお使いいただけます。プログラミング不要、マウス操作で本格的な分析安心の分析プロセス完全公開、研究利用も多数 New! 機能紹介（スクリーンショット）スクリーンショット集［旧ページ：言葉・文書・可視化・他］ KH Coder 3 正式版の新機能 New! 機能追加プラグイン「文錦®」シリーズ New! ダウンロードと使い方 KH Coder 3 正式版ダウンロード (Version 3.02) 使い方を知るためのチ

agx 2006/12/05

内容分析（計量テキスト分析）もしくはテキストマイニングのためのフリーソフトウェア

リンク

Darts: Double ARray Trie System

Darts: Double-ARray Trie System はじめに Darts は, Double-Array [Aoe 1989]を構築するためのシンプルな C++ Template Library です. Double-Array は Trie を表現するためのデータ構造です. ハッシュ木, デジタルトライ, パトリシア木, Suffix Array による擬似 Trieといった他の Trie の実装に比べ高速に動作します. オリジナルの Double-Arrayは, 動的に key の追加削除を行えるような枠組ですが, Darts はソート済の辞書を一括してDouble-Array に変換することに機能を絞っています. ハッシュのような単純な辞書として使うことも可能ですが, 形態素解析器の辞書に必須の Common Prefix Search を非常に高速に行うことが

agx 2006/11/08

リンク

全文検索エンジン性能評価 - preferred infrastructure

全文検索エンジン性能評価 (2006/08/19) 概要弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」（Sedue 24やGenome Sedueで利用されているエンジンSedue コア）とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正使用環境ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8

agx 2006/09/13

リンク

Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

agx 2006/07/11

組み込み型の全文検索エンジンです。DBMSやスクリプト言語処理系等に組み込むことによって、その全文検索機能を強化 n-gramインデックスと単語インデックスの特徴を兼ね備えた、高速かつ高精度な転置インデックスタイプ

リンク

きまぐれ日記: mecab 0.92 公開しました

mecab 0.92 を公開しました。http://mecab.sourceforge.jp 新しい辞書, mecab-ipadic-2.7.0-20060707 も同時公開しています。大きな変更点は Perl との決別です。0.91 までは辞書のコンパイルなど一部のコードが Perl で実装されていましたが、今回すべて C++ で再実装してだいぶすっきりしました。辞書のコンパイルなんかは数秒で終わります。十分テストしていませんが、windows の素の環境でも CRF を使った学習ができます。さらに、ライセンスがGPL/LGPL/BSDのトリプルライセンスに変更になりました。 * ライセンスを LGPL から GPL, LGPL, BSDスタイルライセンスのトリプルライセンスに変更 * 辞書コンパイラ等, 一部Perlで実装されていたコードをC++で再実装. Perlへの依存性

agx 2006/07/10

リンク

Sematics、数学的アプローチによる日本語解析エンジン「Perceptrons」開発 | ネット | マイコミジャーナル

言語解析の専門ソフトハウスSematicsは15日、統計的確率論などの数学的アプローチによる日本語解析エンジン「Perceptrons Engine(パーセプトロン・エンジン)」を開発したと発表した。従来のような巨大な辞書を持たないので、軽量で高速な処理が可能とされ、今後ライセンス提供を行っていく考え。 Sematics代表取締役会長の吹谷和雄氏従来技術との違い。辞書を持たないのが特徴 Sematicsは、数学者である代表取締役会長の吹谷和雄氏が設立した企業。2004年12月に設立されたばかりの若い企業だが、「本格的に研究を始めたのは15年前から」(吹谷会長)ということで、3月に発売されたソースネクストの文書要約ソフト「ズバリ要約」には、同社の解析エンジン「Automaton Parser(オートマトン・パーサー)」が採用されたという実績もある。同社の解析エンジンの特徴は、辞書を持

agx 2006/06/17

形態素解析

リンク

辞書を使わずに同義語を解析する言語解析エンジン，Sematicsが発表

Sematicsは6月15日，言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え，文脈解析と意味解析の機能を備えた。同社の言語解析エンジンの特徴は，語句の辞書データを用いずに解析を行うこと。辞書が必要ないため，高速に処理できるほか，フット・プリントをコンパクトにできる。「（パソコンを使って）1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」（代表取締役の吹谷和雄氏）という。同社が開発した第1号のエンジンであるAutomaton Parserは，統計的確率論によって，形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し，文節の係り受けを解析する