タグ

nlpに関するultraistのブックマーク (89)

  • 意見情報マイニング - PukiWiki

    概要 † このプロジェクトでは,インターネット上の膨大な文書集合から個人が発信する意見を抽出し,構造化情報として蓄積することにより,ユーザの関心に合わせて自由に検索したり,分類したり,さらにその価値を評価したりすることができる新しいタイプの情報処理技術の開発を目的として,次の3つの技術を重点的に研究する. 意見情報抽出 テキストから意見情報を抽出し,構造化する技術提案における「意見」とは,特定の事物に対する主観的な評価や感情的態度の言語的表明を指す. 類似意見認識 構造化された意見情報の間の等価性・類似性を計算し,検索・分類・集計を可能にする技術. 意見価値評価 ユーザの関心に基づいて各意見情報の関連度と信頼度,すなわち意見の価値を評価する技術. ↑

    ultraist
    ultraist 2011/01/08
  • 単語を抽象化する - つまみ食う

    こういうことがしたい。 変換前: ヨーグルト を べる。 変換後: 乳製品 を べる。 こんな感じに言葉を抽象的にしたい。 WordNetを使えば簡単にできる。hypernym(上位語)をたどればそれだけでOK。 そして、日語WordNetを使うのは以下のコードを使うとすごく楽。すごい。 http://subtech.g.hatena.ne.jp/y_yanbe/20090314/p2 やってることは、 lemma(見出し語) => word(単語) => sense(意味?) => synset(同義語)とたどって、 synsetのリンクから hype(上位語) => word(単語) と順番にたどっています。 このあたりのモデルは以下のページの図が分かりやすい。 http://w-it.jp/shima/2009/03/wordnet_java_api.html import w

    単語を抽象化する - つまみ食う
    ultraist
    ultraist 2010/12/29
  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • 日本語評価極性辞書

    2. 日語評価極性辞書(名詞編) 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気, 〜である・になる(状態)客観 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ: ネガティブ:ガン 〜い(評価・感情)主観 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事) 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:

  • 自然言語処理技術の最近の動向:自然言語生成への招待 | CiNii Research

  • 日本語構文解析システム KNP

    語構文解析システム KNP KNP は日語文の構文解析を行うシステムです。形態素解析システムの解析結果(形態素列)を入力とし, それらを文節単位にまとめ, 文節間の係り受け関係を決定します。 以下に典型的な使用例を示します。 % cat test 格文法は質的に統語規則と意味規則を共存させた文法であり, 日語の解析に広く用いられている。 % juman -e2 -B KNP Ver.2.0 をダウンロード (1,571,201 bytes) KNP Ver.2.0 (Windows版)をダウンロード(1,797,651 bytes) JUMAN/KNPのチュートリアルのスライド (京都大学学術情報メディアセンター, メディア情報処理専修コース「自然言語処理技術」, 2005/08/30) KNPを試してみる 自然言語処理のためのリソース にもどる

  • 【インフォシーク】Infoseek : 楽天が運営するポータルサイト

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • 格文法 - Wikipedia

    格文法は、動詞(さらには形容詞・名詞)とその深層格(動作主・場所・道具のような意味役割)との組み合わせから成るものとして文を分析しようとする理論である。 フィルモアによれば、動詞はそれぞれいくつかの深層格を選択し、それらは格フレームを成す。格フレームはその動詞の意味的結合価の重要な側面を記述するものである。格フレームには、例えば一つの深層格は一文に一つしか現れないなどの制約がある。格には義務的なものと随意的なものがあり、義務的格を削除すると非文法的になる。例えば Mary gave the apples はこの意味で非文法的である。 格文法の根幹をなす仮説は、主語や目的語のような文法役割は深層格に依存して決まるということである。フィルモアは1968年の論文で、主語の選択に関する普遍的規則として次のような階層を提案している: 動作主 (Agent) > 道具 (Instrument) > 対

    ultraist
    ultraist 2010/11/23
  • チャンキングの段階適用による係り受け解析 | CiNii Research

  • UbuntuにUTF-8版のcabochaを簡単にインストールする方法 - Syo-Takasakiの日記

    環境はUbuntu 9.04 Desktop-jaです. mecabのインストール aptにutf8版の辞書も用意されていました. $ sudo apt-get install mecab mecab-utils mecab-ipadic-utf8 何故かjuman-dicも入るし,utf8ではないipadicも入る対象に入ってしまうが,気にしない. 動作確認 $ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS もちろんターミナルはUT

    UbuntuにUTF-8版のcabochaを簡単にインストールする方法 - Syo-Takasakiの日記
  • Twitterを用いたリアルタイムイベント検出・位置推定及びその他の取り組みについて @tksakaki 榊 剛史 東京大学工学系研究科 博士課程, Twitterの持つリアルタイム性を生かし、キーワードと��

    Twitterを用いたリアルタイムイベント検出・位置推定及びその他の取り組みについて @tksakaki 榊 剛史 東京大学工学系研究科 博士課程

  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

  • 「Zipf則はなぜ成り立つのかの理論的裏付け」の続き - 木曜不足

    Zipf則はなぜ成り立つのかの理論的裏付け」の続き。おもしろいことになってきました。 FSNLPに書いてあった「ランダムにアルファベット+空白を生成、それを空白区切りの「単語」の列と考えると、それらの単語の頻度分布が Zipf に従う」を試したところ、アルファベットの生成率に実際の分布を用いると確かにベキ分布になったよ、というのが前回確かめたこと。 では、その性質は文字の分布によるのか、というあたりは気になっていて、光成さんにも同じ事を指摘されたので、他の分布でも確かめてみた。 用意したのは以下の4つの分布。 実際の使用頻度分布 一様分布(分布図が横一直線)。 等差な多項分布(分布図が斜め直線) ベキ分布(Zipf) ただし、一様分布では空白の生成確率を少し上げて 0.2 に、残りの文字の確率を 0.8/26 にしている。そうしないと単語の長さが長くなりすぎて、他の分布の場合との比較がや

    「Zipf則はなぜ成り立つのかの理論的裏付け」の続き - 木曜不足
  • http://people.csail.mit.edu/jrennie/20Newsgroups/

  • Zipf則はなぜ成り立つのかの理論的裏付け - 木曜不足

    今日の自然言語処理勉強会@東京にて、Zipf則(ベキ分布)の理論的裏付けとして、ランダムにアルファベット+空白を生成、それを空白区切りの「単語」と考えると、それらの単語の頻度分布が Zipf に従うんだよ、的なお話が FSNLP に書いてあった。 へーで終わらせるんじゃあなくて、そんなの簡単なスクリプトで確認できるからやってみた。 まず文字を一様生成にしたところ、1文字単語と2文字単語と3文字単語の生成確率がそれぞれ等しく、その境界で頻度のジャンプが発生するような、明らかに不自然な量子的分布になってしまって、f*r が乱高下する。 そこで、実際の英文でのアルファベットの使用頻度をアルファベットの発生率に用いるようにしてみた。 #!/usr/bin/ruby list = "abcdefghijklmnopqrstuvwxyz ".split(//) prob = [ 0.0651738,0

    Zipf則はなぜ成り立つのかの理論的裏付け - 木曜不足
    ultraist
    ultraist 2010/07/04
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    ultraist
    ultraist 2010/06/25
  • 確率的モデルによる仮名漢字変換 | CiNii Research

    ultraist
    ultraist 2010/05/15
  • SVMによる予測変換 - nokunoの日記

    Google日本語入力のOSS版であるMozcが公開されたので、ソースコードを読んでみました。Google Japan Blog: Google 日本語入力がオープンソースになりました mozc - Project Hosting on Google Code変換アルゴリズムや学習のロジックに関しては、id:tkngさんが早速ブログにまとめていますので、そちらを読むとよいと思います。また何か気づいたことがあったら書いてみたいと思います。Mozc(Google日本語入力)のコードを読んだメモ - 射撃しつつ前転 Mozcのコードで個人的に興味深かったのは予測変換のアルゴリズムでした。私はもともと修論の時に予測変換の研究をしていて、予測変換のトレードオフという問題に取り組んでいました。予測変換は、単純に考えると候補の頻度が高ければ高いほど良いのですが、それだけだと常に最も短い候補が出力されてし

    ultraist
    ultraist 2010/05/15
  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

    京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改