タグ

自然言語処理に関するespのブックマーク (4)

  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • 集合知プログラミングが凄すぎる件について - プログラマでありたい

    ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。 気に入った点といえば、例えばです。2章「推薦を行う」は、所謂リコメンドエンジンをテーマにしているのですが、この方法に複数のアプローチを紹介しつつ解説しています。レコメンドエンジンの代表的な方法に強調フィルタリングというのがあるのですが、この方法は類似スコアを出す必要があります。スコアの出し方に、ユークリッド距離やピアソン相関などの例を挙げ、それぞれの長所短所を述べています。また相関の種類にもユーザ相関とアイテム相関があり、それぞれどのようなデータの時に向いているのか等を解説してくれています。ですので、複数の手法は知っていてもどちらの方が良いか

    集合知プログラミングが凄すぎる件について - プログラマでありたい
  • 統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発

    語意味解析エンジンを開発するSematicsは6月15日、統計的確率論を用いた言語解析エンジン「Perceptron Engine」を開発したと発表した。統計的確率論を用いた日語解析エンジンは「世界初」(同社)という。 Perceptron Engineは「形態素解析」、「構文解析」、「文脈解析」、「意味解析」の4つの解析処理によって構成される。従来の言語解析技術は、辞書によるデータのマッチングにより処理されていたため、データ容量が膨大で、その処理に多大な時間を要した。一方、Perceptron Enginesは大規模な辞書を用いないため、少ないメモリやディスク容量でも高速処理が可能で、500文を1秒で解析できるという。 形態素解析とは、文章を形態素と呼ばれる、意味を持つ語句の最小単位まで分割して解析するもの。各語句を品詞単位、動詞や形容詞といった活用語句の場合はその活用形ごとに解析

    統計的確率論で言語を解析--Sematicsが世界初の日本語解析エンジンを開発
  • 辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表

    Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と意味解析の機能を備えた。 同社の言語解析エンジンの特徴は,語句の辞書データを用いずに解析を行うこと。辞書が必要ないため,高速に処理できるほか,フット・プリントをコンパクトにできる。「(パソコンを使って)1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」(代表取締役の吹谷和雄氏)という。 同社が開発した第1号のエンジンであるAutomaton Parserは,統計的確率論によって,形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し,文節の係り受けを解析する

    辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表
  • 1