タグ

nlpに関するfrsh_mtのブックマーク (30)

  • 形態素解析の過去・現在・未来

    2. ⾃自⼰己紹介 l  海野  裕也  (@unnonouno) l  unno/no/uno l  研究開発部⾨門  リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日アイ・ビー・エム(株)東京 基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過 去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

    形態素解析の過去・現在・未来
    frsh_mt
    frsh_mt 2011/10/21
  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

  • DO++ : 部分文字列の話

    ここしばらく、部分文字列の統計量を利用した機械学習やデータマイニングをやっている。そこの話からちょっと抜粋。 長さnの文字列T[1,...,n]が与えられた時、T中に出現する部分文字列T[i...j] (1≦i≦j≦n)の数はn個の中からiとjの2箇所を選ぶのでO(n^2)個ある。例えば、n=10^6(1MB)だったら、部分文字列の数は約10^12個(1T)と非常に大きい。 しかし、これらの部分文字列の出現位置は同じである場合が多い。例えばT="abracadabra"であれば、"abra"と"abr"の出現場所は1番目と8番目であり、全く同じである。 では出現位置(部分文字列の左端を出現位置とする)が全く同じであるような部分文字列をまとめてグループにした場合、グループの数はいくつになるのだろうか。 これは接尾辞木(wikipedia 授業の資料)を知っているなら簡単に説明できる。 Tに対

    DO++ : 部分文字列の話
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • 大規模データを基にした自然言語処理 - DO++

    人工知能問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。 発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類 で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうか オンライン学習、L1正則化の話がメインになっていて、その両方の最終形の 確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

    大規模データを基にした自然言語処理 - DO++
  • Social IME ~みんなで育てる日本語入力~

    Xoi Lac TV – Xem Bóng Đá Trực Tiếp Hôm Nay – Xoilac TV Trực Tuyến Xoilac TV là kênh phát sóng trực tiếp các trận đấu thể thao lớn trên thế giới hoàn toàn miễn phí. Đến với Xoilac, khán giả được thỏa sức lựa chọn và theo dõi những trận đấu mà bản thân yêu thích. Ngoài ra, Xôi Lạc TV cũng cung cấp những thông tin hữu ích liên quan đến trận đấu để các bet thủ có thể dễ dàng đưa ra những nhận định chí

  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    frsh_mt
    frsh_mt 2009/01/27
    研究対象にするドメインをどれだけ絞るかが結構精度にかかわる
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

  • TinySegmenterをRubyに移植 - llameradaの日記

    Javascriptだけで書かれたコンパクトな分かち書きソフトウェアであるTinySegmenterをRubyに移植しました。移植してから別実装があるのに気がつきましたが、気にせず公開することにします。 Codereposにアップしてありますので、下記のURLよりダウンロードできます。 http://svn.coderepos.org/share/lang/ruby/ruby_tiny_segmenter/ MeCabに対するTinySegmenterの利点は、Ruby だけで書かれているので、どんな環境でも簡単に動作する点です。インストールも簡単です。Windows環境でMeCabをRubyから扱うのは少し面倒ですが、TinySegmenterならば殆んど問題ありません。 実行例はこんな感じです。 require "tiny_segmenter" words = TinySegmente

    TinySegmenterをRubyに移植 - llameradaの日記
  • 論文特集「Webインテリジェンスとインタラクション」論文募集

    論文特集「進化計算パラダイムのフロンティア」論文募集 近年,Web環境は大きく変革しようとしています.商用の検索エンジンで検索可能な静的なWebページ数は,200億を越えると言われ,ある調査では2000年の時点でDeepWeb中のWebページ数は5 000億を超えたと報告されております.また,データ量の観点だけでなく,近年blogやSNS(ソーシャルネットワーキングサービス)に代表されるような,人間関係を伴った活動も活発化しております.さらに,これらのデータやコミュニケーションは,実世界上の人間関係や物理オブジェクト,地図データなどとも融合を始めております. このような状況において,Webをより高度に活用するためには,人工知能に代表される知的情報処理技術,Web上の情報リソースに効率的にアクセスするためのデータベース技術,Webからの知識獲得を行うための自然言語処理技術,Web上のコミュ

  • ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

    こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic と ユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

  • Mechanize, Hpricot, MeCab でブログの頻出単語を調べる

    require 'MeCab' require 'rss' require 'mechanize' require 'kconv' require 'hpricot' require 'open-uri' module MeCab class Node def category return self.feature.split(/,/)[0] end def each(&b) b[self] self.next.each(&b) if self.next end end end agent = WWW::Mechanize.new page = agent.get('http://d.hatena.ne.jp/akio0911/archive') # ページを開く m = MeCab::Tagger.new h={} # エントリへのリンクを抽出 page.links_with(:hre

  • 日本語形態素解析APIとマッシュアップ

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog テキスト解析API企画担当のS・Kです。 当ブログにおいて一般の開発者の皆様にYahoo! JAPANの高度な日語処理技術をマッシュアップにお役立ていただけるよう、なじみの薄い日語処理用語の解説や一般的なご利用方法をお伝えしていきたいと思います。 先日、弊社も協力企業として参加しましたMashup Award4において、Technology賞を受賞され注目を集めました「Newsgraphy」様にも日形態素解析APIをご利用いただいております。 そもそも、形態素解析とは、、 言語として意味を成す最小単位の文字列のことを「形態素」と呼び、ある文章をその形態素に分けていく解析のことを「形態素解析」と呼びます。 うーん、なんだか難

    日本語形態素解析APIとマッシュアップ
  • http://japan.internet.com/webtech/20081204/7.html

    frsh_mt
    frsh_mt 2008/12/04
    Blogを対象にすると相当ゴミが多そうですけど。その辺どうやってうまいことやってんのか知りたいです。
  • みんなの経験:検索

    みんなの経験は、奈良先端科学技術大学院大学自然言語処理学講座とニフティ株式会社の共同研究により開発を行いました。 公開にあたりアクセラテクノロジ株式会社およびニフティ株式会社よりブログ記事の収集・解析について協力を受けました。 FAMFAMFAMのアイコンを一部改変して利用しています。 Copyright © 2008 Nara Institute of Science and Technology ご不明な点等ありましたら minna AT is.naist.jp までご連絡ください。

  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

    frsh_mt
    frsh_mt 2008/11/12
    おぉ、こういうのを公開していただけると有難いです。
  • HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org

    This domain may be for sale!

    frsh_mt
    frsh_mt 2008/11/12
    便利そう。
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • 「w」(ワラ)の意味も解析!?――NIIと国語研、Yahoo!ブログの記事を学術利用

    国立情報学研究所(NII)と国立国語研究所は4月23日、「Yahoo!ブログ」に投稿された記事データを利用した研究を始めると発表した。「w」(笑、ワラ)などネット独特の表現やくだけた文章を含んだブログの内容を分析できる言語解析ツールや、コーパス(言語分析用データベース)などの構築を目指す。データはヤフーが無償で提供する。 4月25日以降に投稿されるYahoo!ブログの記事から季節ごとに数回ずつ、合計500万語以上を抽出。固有名詞や個人の特定に結びつく可能性のある表現を除外し、研究に利用する。全体に公開している記事のみが対象。Yahoo!IDには、「ユーザーがYahoo!で発信したコンテンツを、ヤフーが無償で非独占的に複製する権利を許諾する」という規約があるため、規約に同意していないユーザーでも投稿できるブログコメントは提供データに含まない。 ブログデータは、言語学の研究や、ブログの内容を分

    「w」(ワラ)の意味も解析!?――NIIと国語研、Yahoo!ブログの記事を学術利用