タグ

NLPに関するy883p2のブックマーク (85)

  • Wikipedia日英京都関連文書対訳コーパス

    English Page コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成

    y883p2
    y883p2 2010/11/15
  • 構文解析が何に役立つのか

    思いがけずたくさんブックマークしていただいたので,この機会になんで構文解析なんかやるのかというお話を書こうと思います.おそらく,NLP界隈の人には何をいまさらと思われるかもしれませんが,それが当に役立つかというとなかなか一筋縄では行きません.今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな,と勝手に考えてますのでそのつもりで書きます. 構文解析というのは,文の構造を判別する処理のことで,NLP的には単語分割,品詞タグ付け(いわゆる形態素解析)のあとにくる処理です.ソフトウェアで言えばCabochaやKNPがこれにあたります.ここに大変わかり易いチュートリアルがありますw 例えば「値段の高いワイン」が,「値段のワイン」ではなくて,「値段の高い」「高いワイン」であることを認識する技術,と理解していただければ良いと思います.このように,文節間の係り関係を解析することを,係り受け解析

    y883p2
    y883p2 2010/02/07
  • [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記

    最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。 (追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Document Collections (KDD 2009) 論文の話は2つあって一つ目がSparseLDAというCollapsed Gibbs samplerの省メモリかつ高速な方法の提案と2つ目はオンラインで文章が入力されるような場合において訓練データと新規データをどう使うかという戦略について述べて実験している。 Collapsed Gibbs samplerを高速化しようという論文はPorteous et al.(KDD 2008)でも述べられているけどそれよりも2倍ぐらい高速(通

    [機械学習] トピックモデル関係の論文メモ - tsubosakaの日記
    y883p2
    y883p2 2009/12/25
  • 未知語コストは変換精度にそれほど大きな影響を及ぼさなかった - 射撃しつつ前転 改

    4/12の記事で、仮名漢字変換の「未知語コストが変換精度に及ぼす重大な影響」について書く、と書いたが、その後の続きを書かなかったので、いつか続きを書かなければならないと、気になっていた。なんとか今年のうちに書ける気力が戻ってきたのでさっさと書いてしまおう。 結論はもう既に書いてしまったが、未知語コストは変換精度にそれほど大きな影響を及ぼさなかった。 より正確に書くと、未知語コストが変換精度に重大な影響を及ぼすのは学習データが非常に少ないときで、データがある程度以上増えると、未知語コストは適当にそこそこ大きな値にしておけば、それだけで割と普通に動く。そもそも未知の単語が変換候補として出てくる機会自体が減るので、単語長にポアソン分布を仮定して…みたいな事をやってもあんまり意味がない。もっとすごい頑張ったモデリングをすると、また話は変わってくるのかもしれないし、そこのところには割と興味があるけど

    未知語コストは変換精度にそれほど大きな影響を及ぼさなかった - 射撃しつつ前転 改
    y883p2
    y883p2 2009/12/22
  • [O] Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文

    Opinion mining and sentiment analysis(意見マイニングと評判分析)というサーベイ論文 Tweet [日記] なんかあんまり日語の言及が無いですけど、「Opinion mining and sentiment analysis」というサーベイ論文が書籍化されていて、おまけにその内容が無料で閲覧できるようになっています。 - Opinion mining and sentiment analysis (survey) -- http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html Bo Pang and Lillian Lee Foundations and Trends in Information Retrieval 2(1-2), pp. 1–1

    y883p2
    y883p2 2009/11/08
  • JavaScriptで本文抽出·ExtractContentJS MOONGIFT

    ExtractContentJSはJavaScript製のオープンソース・ソフトウェア。ブログやWebサイトのデータを集積して、そこから情報を吸い出して何らかのサイトを構築するというサービスは多い。その時重要になるのが特定URLからの文抽出だ。サイドバーやヘッダーなど余計な情報を省くことでより意味のあるコンテンツが得られるようになる。 画面下の文字列が文抽出した結果 Rubyであれば以前紹介したExtractcontentというライブラリがある。そしてそれをベースのはてなにてJavaScript実装したのがExtractContentJSだ。JavaScriptベースの実装とあって、クライアントベースで抽出を行いたいという時に使えそうなライブラリだ。 使い方は簡単で、ExtractContentJSのオブジェクトを作ったら現在表示されているページのオブジェクト(document)を渡す

    JavaScriptで本文抽出·ExtractContentJS MOONGIFT
    y883p2
    y883p2 2009/10/18
  • Web検索エンジンのインデックスを用いた同位語とそのコンテキストの発見 | CiNii Research

    タイトル別名 Web ケンサク エンジン ノ インデックス オ モチイタ ドウイゴ ト ソノ コンテキスト ノ ハッケン Discovering Coordinate Terms with Their Contexts Using Web Search Engine Index 研究では,ユーザが与えた1語のクエリに対して,Web検索エンジンが持つ情報のみから同位語とそのコンテキストを発見する手法について提案する.同位語とは,共通の上位語を持つような語のことである.従来研究として,同位語や,上位語,下位語などを求めるような研究は数多くあるが,それらはWeb上の文書を利用するものも含めて,巨大なコーパスを解析して大量の結果を求めるというものであった.我々の提案する手法では,Web文書のタイトルやスニペットといったWeb検索エンジンが持つ情報のみを,少ない回数のWeb検索によって取得し,それ

    y883p2
    y883p2 2009/10/16
  • 新語 造語 未知語 の検出手法 : 研究開発

    自然言語処理において、 辞書は単語の文法的意味の情報源として必要不可欠であり、辞書に登録されていない単語を減少させるため、 辞書の語彙を増強する努力がなされている。 新語や専門用語は絶えず増え続けているため、 辞書作成の作業は多大な労力を要するのみならず、 各解析段階での未知語との遭遇は避けられず、大きな問題の一つとなっている。 ※当然ですが 形態素解析が必要な言語のみの研究です。 これができていないと 妙な箇所で形態素分割することになります。 ヒューリスティックな検出は色々ありますが、ヒューリスティックではない統計的方法です。 概して、単語(と見なせるかもしれない記号列)の前後情報から最も尤もらしいモデルを推定します。 出現頻度と連接頻度に基づく専門用語抽出 湯紘彰 森辰則 横浜国立大学 中川裕志   東京大学 情報処理学会研究報告. 自然言語処理研究会報告 2001(86) ターム性

    新語 造語 未知語 の検出手法 : 研究開発
    y883p2
    y883p2 2009/10/11
  • 日本語解析エンジン「なずき」 | NTTデータ

    なずき感性抽出APIは、ブログ記事など日語で書かれたテキスト情報に含まれる感性を抽出するAPIです。APIを利用することによって、指定されたテキスト情報内から、「好評」や「苦情」、「要望」といった感性情報を、その表現とともに抽出することが出来ます。また、同時にテキスト情報を形態素に分割し、品詞、読みかなといった情報を取得できる形態素解析や、形態素に分割された単語の係り受け関係情報を取得できる構文解析の機能も提供します。 この度は、多数ご応募いただき、誠に有難うございました。( 応募作品一覧はこちらでご確認頂けます。) なずき感性抽出APIを利用された作品から、最優秀賞を受賞された「SocialCombat V」をはじめ、「UNIQLO NOW」、「Tmeeting(仮)」など、多数受賞作品が選ばれました。その中から、なずきの特長を一番表現出来ているという理由から、NTTDATA賞として

    y883p2
    y883p2 2009/10/09
  • 次元が高い場合に関してのsimhashの計算 - tsubosakaの日記

    最近simhashの実装を行っていて、データの次元が高いとsimhashを計算するのに必要なランダムなベクトルをメモリ上に乗らないという事態が生じたのでad hocな方法で回避していたけど、論文[1]をよく見直すとほぼ同じ方法でより計算コストが少ない方法が紹介してあったので少し解説を行ってみる。ちなみに以下の解説では低次元のビットベクトルに縮約した後にハミング距離が近いものをどうやって探索するかについては述べないです、それに関しては[1],[2]を参照してください。 ちなみに自分が実装したのは各ビットごとに次元に対するハッシュ関数を定義して計算する方法でした。この方法だと以下で開設する手法よりもf倍の回数ハッシュ関数を計算する必要があるので実行時間が割とかかる。 解説 simhash[3](文献によってはLSHと呼ぶこともある[2])は次元削減の手法の一つで、高次元のデータを低次元のビット

    次元が高い場合に関してのsimhashの計算 - tsubosakaの日記
    y883p2
    y883p2 2009/10/07
  • 増井 / 類語をみつける方法

    というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したい たとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい 「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

    y883p2
    y883p2 2009/09/29
  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

    y883p2
    y883p2 2009/09/03
  • 話題が収束する単語についての指標 : 研究開発

    総合研究大学院大学 複合科学研究科  情報学専攻 卒 博士(情報学) 自然言語処理や機械学習データ分析に関する研究内容とwebシステムの開発と運用について書いています。 シリコンバレーベンチャーみたいに深い技術の事業化をしたいと思っています。 ご興味ある方はご連絡ください。 検索語の曖昧性を解消するキーワードの提示手法 電子情報通信学会技術研究報告, データ工学 105(172) pp.1-6 20050707 若木裕美  東京大学大学院 正田備也  高須淳宏  安達淳    国立情報学研究所 欲しい結果が正しく得られにくいと感じた時,検索エンジンが悪かったのであろうか. ユーザによって入力される検索語は信頼性の高いものと言えるだろうか. Web 上にあるぼう大な情報は,元々体系的に作られたものではない. 現状では,質問者が欲しい情報を得るために,Web 上の情報の特性に合わせて「Web

    話題が収束する単語についての指標 : 研究開発
    y883p2
    y883p2 2009/07/26
  • 機械学習っぽいtwitterユーザとか羅列 - 糞ネット弁慶

    機械学習だったりデータマイニングだったり自然言語処理だったりグラフだったり研究者だったりするけど構わず羅列。followしてると面白い話題が流れてくると思う。 Yasuhisa Yoshida(@syou6162)さん | Twitter ←↓↑→(@mickey24)さん | Twitter きをふし(@kiwofusi)さん | Twitter Mitsumasa Kubo(@beatinaniwa)さん | Twitter イルカ人間(@niam)さん | Twitter t??(@tkf)さん | Twitter Standard ML/Yeah!(@smly)さん | Twitter penguinanaB(@penguinana)さん | Twitterからの返信付きツイート Akso de la Malbono(@Cryolite)さん | Twitter Mamoru Ko

  • お手軽実装で評判分析 - 次世代3Dコンテントパイプライン開発室

    あの商品を買うべきか買わざるべきか?いま一つ踏ん切りが付かない時に頼りになるが、ネット上にある商品のレビュー記事。しかしレビューをしらみつぶしにチェックするのは大変ということで、ここ数年 評判分析(Sentiment Analysis)が使われるようになってきました。 この評判分析が具体的にどんな問題を解決できるのかというと、以下の画像は評判分析のさらにその応用に当たる評判要約(Sentiment Summarization)に関する文献からの引用になりますが、沢山ある感想文をカテゴライズできたりします。 A Joint Model of Text and Aspect Ratings for Sentiment Summarization Ivan Titov, Ryan McDonald 46th Meeting of Association for Computational Lin

    お手軽実装で評判分析 - 次世代3Dコンテントパイプライン開発室
    y883p2
    y883p2 2009/07/20
  • 言語処理関連のプログラム類

    可能な限りプログラミングをしなくて済むようにプログラミングを学ぶ rubyっぽいの 手習いで作ったrubyのコードとか google N-gramを利用したデモ類 以下のデモはNYUの関根先生の指導の下、New York Experience Program滞在中に進めたテーマを元にスピンアウトしたもので、株式会社データセクションの支援により開発しました。 用語集合拡張器デモ google N-gramが研究室に届いたので、trigramだけを用いて簡単な知識獲得のデモを作ってみた。 いわゆる用語集合拡張器と言う奴です。解説はそのうち google N-gramを利用した用語集合拡張器デモ 用語間共通属性抽出器デモ 上で作った用語集合拡張器を利用して、入力語間に共通すると思われる属性の抽出器を構築。 これも基的にtrigramだけで動いています。 google N-gramを利用し

    y883p2
    y883p2 2009/07/15
  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

    y883p2
    y883p2 2009/07/15
  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
    y883p2
    y883p2 2009/07/08
  • 文書から知識を抽出する「Machine Reading Program」を開発--米BBNがDARPAと契約

    1ページずつ読むことなく、ウェブ上の情報が習得できればどんなによいだろうか?それこそ軍隊が望む機能である。 米国防総省国防高等研究事業局(DARPA)は、ますます増大するデジタル文書の山と、絶えることなくデータのインプットを求め続ける知的コミュニティの間のギャップを埋めるための読み取りマシンを開発する企業を募った。 文書から知識を抽出し、人工知能AI)システムや人間のアナリストらが処理することのできる形式に出力することが可能な、ユニバーサルテキストエンジンの開発に関する2970万ドルの契約を獲得したのは、BBN Technologies。 軍隊では、「Machine Reading Program」という正式名称を持つこのマシンを用いて、各州や多国間にまたがる組織(アルカイダから国際連合にいたるまですべてを含む)の技術的および政治的活動を自動的に監視する予定である。 これを実現するために

    文書から知識を抽出する「Machine Reading Program」を開発--米BBNがDARPAと契約
    y883p2
    y883p2 2009/07/08
  • Not found | Nomura Research Institute (NRI)

    You can search NRI's research and research results from tags, free words, and content types.

    y883p2
    y883p2 2009/05/27