タグ

NLPに関するYasSoのブックマーク (142)

  • Sumibi.org ローマ字を日本語に変換できる無料サイト

    site closed.

    YasSo
    YasSo 2006/07/05
  • GrooveCafe

    YasSo
    YasSo 2006/06/15
    kakasiを使ってMacをしゃべらせる。あとでMeCabでやってみる。
  • 辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表

    Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と意味解析の機能を備えた。 同社の言語解析エンジンの特徴は,語句の辞書データを用いずに解析を行うこと。辞書が必要ないため,高速に処理できるほか,フット・プリントをコンパクトにできる。「(パソコンを使って)1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」(代表取締役の吹谷和雄氏)という。 同社が開発した第1号のエンジンであるAutomaton Parserは,統計的確率論によって,形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し,文節の係り受けを解析する

    辞書を使わずに同義語を解析する言語解析エンジン,Sematicsが発表
  • plotless: UTF-8での全文検索メモ(PostgreSQL + Tsearch2 + MeCab 編)

    慣れない perl に苦戦しているわけですが、"Bad free() ignored (PERL_CORE)" って警告が出てくる原因がイマイチわかりません…。 perl5.8を入れ直してみようかとportsでコンパイルするとエラーが出るようになるし…。困ったなぁ…。 で、それとは関係なくポスグレのTsearch2 + MeCabを使った全文検索の仕方を忘れないようにメモメモ。 参考にしたのは以下のページ。 https://www.oss.ecl.ntt.co.jp/tsearch2j/index.html http://www.emaki.minidns.net/Programming/postgres/index.html --- 環境 ・FreeBSD 5.4 ・PostgreSQL 7.4.13 インストール済み (/usr/ports/databases/postg

  • postgres雑記帳

    cseはつみきウェブで配布されているフリーのSQL実行環境です。Oracle、PostgreSQLMySQLは、ネイティブ呼び出しが出来ます。また、ODBCでの接続も行えるため多くのデータベースで利用が出来お勧めです。 PostgreSQLからネイティブ接続するためには、libpq.dllが必要になります。このlibpqですが、日Windows版 libpqが有名です。が、PostgreSQL 6.5から更新されていないため、md5認証に未対応かつ、長いSQLが実行出来ません。 そのため、PostgreSQL 8.2.4のソースからlibpq.dllを作ってみました。ただし、SSL未対応です。 しかし、cseでPostgreSQLへ接続する時にデータベース名を「"」で囲って呼び出しを行っているためそのままではデータベースへ接続出来ません。そのため、データベース名が「"」で囲まれている

    YasSo
    YasSo 2006/06/02
    「pgmecab」ちょっと苦労したけどなんとか動いた!
  • テキスト検索エンジンライブラリ - Apache Lucene 2.0 登場 | エンタープライズ | マイコミジャーナル

    The Apache Lucene Project, the Apache Lucene (Java)は27日(米国時間)、Apache Luceneの最新版であるApache Lucene 2.0を公開した。Apache LuceneはJavaで作成された高性能高機能なテキスト検索エンジンライブラリ。同プロジェクトは、Apache Luceneはテキスト検索を必要とするアプリケーション、とくにクロスプラットフォームで動作する必要がある場合には適切なテキスト検索エンジンライブラリだとしている。 Apache Lucene 2.0はApache License Version 2.0のもとで公開されているオープンソースソフトウェア。1.9.1からのバグフィックスが主な変更点である。ただし、1.x系において非推奨となっていた機能については2.0からは削除されているため注意されたい。 Apach

  • 日本語の読み変換サービス-Yomi:phpspot開発日誌

    yomi.endeworks.jp yomi.endeworks.jpはMeCabとユーザーの編集によって作成される日語の読み変換サービスです。辞書を引けという噂もありますが。 [Yomi] - 読み を使えば、日語の読みを簡単に取得することが出来ます。 読みの取得は、MeCabだけに頼らず、ユーザの力も借りて不備を補うという試みも面白いですね。 読みはJSON形式でも取得可能。 http://yomi.endeworks.jp/yomi?mode=json&q=%u706B%u5C71 にアクセスすると次の値が返されます。 { "q" : "火山", "mecab" : "カザン", "yomi" : "カザン", "candidates" : [ ] } 使い方によっては面白いことが出来そう。

    YasSo
    YasSo 2006/05/10
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • ランダム生成された情報学論文が国際会議に受理される | スラド Linux

    この "World Multi-Conference on Systemics, Cybernetics and Informatics" という国際会議は、「ちゃんとした」国際学会なのでしょうか? 私のところにも、(情報科学研究者でもないのに)この国際会議でセッションを組織しないか、というProf. Nagib Callaos なる人物からのメールがSPAMのように何度も来ました。金儲けが目的で組織される、学問的には権威のない学会ではないかと推測していたのですが、件の自動生成ページにも、あからさまにそう書いてありますね。その「化けの皮を剥がす」のが、このいたずらの大きな目的のようです。 主催者は金を儲ける、出席者は国際会議のセッションを組織した、ということで業績に箔をつけられる、ということで、共存共栄の仕組みになっているのかも知れません。 この組織委員に入っている日人もずいぶんいるよう

  • 偽論文判別プログラム | スラド Linux

    なんでも鑑定団曰く、"家記事より、ランダム生成された情報学論文が国際会議に受理されるという話題を覚えている方も多いと思われるが、NewScientistの記事によるとインディアナ大情報学部の研究者が、それを判別するプログラムInauthentic Paper Detectorを開発したそうだ(2006 SIAM Conference on Data MiningへのProceedings[pdf])。テキストを入力すると、ランダム生成されたかどうかの割合(パーセント)を計算し、Inauthentic/Authenticを判別する。 ただ、NewScientistの別の記事が「人間が書いた可能性:32.1%」と判別されて記者を悲しませるなど、汎用性があるというわけでもない模様(あるいは記事が…)。 日⇒英の機械翻訳による文章では90%程度の結果が出た。自分で書いた英語の文章をチェックするの

    YasSo
    YasSo 2006/04/26
  • 評判を検索する: mediologic.com/weblog

    Disclaimer このブログは高広伯彦の個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には一切の関係はありません。 Powered by Movable Type 3.17-ja « Ask.comのCEOが。。。 | Main | リーセンシーの高いビールの広告。だったりして。 » April 22, 2006 評判を検索する ■ gooラボ 評判検索 最近話題のCGM/ブログ検索は数あれど、gooラボの「評判検索」は視覚化されてる部分がちょっと他と違って面白い。 ためしに、こことこことこことここの“評判”を調べてみた。 ちょっと面白い。特に前者二つの比較。結構コレは当たってたりしてw。 ただ、キーワードに対してその周辺の肯定語・否定語で判断するというロジックが基となっているせいか、リザルトに上がってくるページの中には???というのもあ

  • ed

    2004.3.28 電子辞書研究会 第1回大会 清水伸一(安城学園高等学校) Download Scripts 1. Perl モジュールについて Perl には、スクリプトから呼び出して使えるモジュールがあります。CPAN(Comprehensive Perl Archive Network:http://www.perl.com/CPAN/)とそのミラーサイトに、無償で使える多くのモジュールがリストされています。これらのモジュールは、CPANサイトからダウンロードできます。また、使用法や例などもここで調べることができます。 Perl モジュールのインストール方法は、CPANのサイトに書いてありますが、例がWindows 95 や古い Mac OS になっているなど、現状に合わないようです。現在、 Windows 用 ActivePerl には、ppmというDOSベースで動くモジュールイ

  • 検索+ゴーストライタープログラム | 秋元@サイボウズラボ・プログラマー・ブログ

    via Creating Passionate Users Instant Article Ghost Writer は、あるキーワードに関して何も知らなくても、それっぽい文章を作ることができる、という有料サービス。 解説ビデオを見てみたが、おおざっぱに以下のような感じで進む。 – 書きたいキーワード(ビデオでは「危険を避ける運転(defensive driving)」)を指定 – 書きたい単語数を指定 – 生成 – キーワードを含む文章が様々なブログから一文ずつかき集められ、リスト表示される – リストから不要なものを外す – リストの順序を変更する – いくつかの文章をグループ化する – グループを並べ替えたりする ビデオで完成した文章はそれなりにそれっぽい。ぱっと見た目はね。 「Professional Article を Short Time で作る」という売り文句は明らかに言い過

    YasSo
    YasSo 2006/03/17
    近い将来、こういうプログラムを使ってレポート提出する学生が出てくるんだろうな…。
  • SPARK PROJECT

    YasSo
    YasSo 2006/03/17
    “Anno Chat” 折り返し翻訳を用いたチャットシステム
  • http://corpora.jp/

    YasSo
    YasSo 2006/03/14
    コーパス検索ソフトSAKURAをちょっと試してみたいかも。昔WebObjects+Flashで作った用例検索ツールを久しぶりにメンテしたくなってきた。
  • ボイスレコーダの「音声テキスト変換ツール」が無敵な件 - kokepiの日記

    きょうね、同僚のニーチャンがICレコーダ買ってきたんですよ。 「お客様に事例のインタビューいってくる!」 つって。 で、なんとこのICレコーダ、音声を自動でテキスト起こししてくれるらしい。 同僚がインタビュー行って帰ってきて喜び勇んで試していた。 結果、、、。 まず次の文章からはじまっていた。 夫婦は、御社の前の方はほぼ四分は反フンフンをした。 は!? なんの文章ですか!!? 「反フンフン」ってなに!? 4分間もされたのうちの会社!? うちの会社のサービス事例インタビューだったはずなんだけどなぁ。全文公開しても守秘義務に触れそうな部分がカケラも見当たらない、、、w 最近で一番笑いました。 夫婦は、御社の前の方はほぼ四分は反フンフンをした。27配布噴霧を控えた破片二年半、不法案でもない、和平案は新方法もなく不法する不安に不毛な夫婦もので、その方が増えてもあるねんですね、諫早湾にのぞむ主婦グ

    ボイスレコーダの「音声テキスト変換ツール」が無敵な件 - kokepiの日記
    YasSo
    YasSo 2006/03/02
    解読できたら守秘義務に触れて大問題だろうけど…解読できそうにないなw
  • ジャストシステム ニュースリリース(2006/01/18)学生の声を学校経営や授業改善に活かす評価分析システム「TRUSTIA(トラスティア)」を3月17日(金)新発売~公共機関向けテキスト分析システム 「MiningAssistant」 も同時発売~

  • 窓の杜 - 【NEWS】12カ国語の相互翻訳が可能なフリーの翻訳ソフト「iTranslator for Java」

    語、英語、イタリア語など12カ国語に対応しており、Webブラウザー機能を内蔵した翻訳ソフト「iTranslator for Java」v3.40isが、7日に公開された。Windows 98/Me/NT 4.0/2000/XPに対応するフリーソフトで、現在作者のホームページからダウンロードできる。 なお、ソフトの動作には「Java 2 Runtime」v1.3以降が必要。またソフトは翻訳エンジンに、Web上で翻訳エンジンAPIを提供する開発者向けサービス“WebserviceX.NET”を利用しているため、翻訳時にはインターネットに接続されている必要がある。 ソフトで翻訳できる言語は、“日語”“英語”“フランス語”“ドイツ語”“イタリア語”“スペイン語”“ポルトガル語”“ギリシャ語”“オランダ語”“ロシア語”“中国語”“韓国語”の12カ国語。“英語から日語”“日語から韓国

    YasSo
    YasSo 2006/01/19
    ん? JavaなのにWin専用??
  • シソーラス辞書の生成

  • 自然言語データに関する情報 - NAIST Computational Linguistics

    概要 情報処理学会「自然言語資源の共有化研究グループ」(委員:松裕治,徳永健伸,田中裕一,佐野洋)の調査報告 自然言語資源の一覧を随時整備しています. 下記以外の情報をお持ちの方は,どのような情報でもお知らせいただければ幸いです. (連絡先: matsu@is.naist.jp) ↑ 関連資料 SNLR(International Workshop on Sharable Natural Language Resources, NAIST, Nara, Aug. 1994)で発表された言語資源のまとめ Jane A. Edwardsによるコーパスのサーベイ Edwards, Jane A. & Martin D. Lampert (eds.): Talking Data: Transcription and Coding in Discourse Research, London and

    YasSo
    YasSo 2005/10/27
    奈良先松本研のページ