[B! nlp] frsh_mtのブックマーク

形態素解析の過去・現在・未来

2. ⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  unno/no/uno l  研究開発部⾨門　リサーチャー l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング l  職歴 l  2008/4~2011/3 ⽇日本アイ・ビー・エム（株）東京基礎研究所 l  2011/4~ 現職 2 3. 今⽇日の発表の⽬目的 l  形態素解析器の中で何が⾏行行われているか l  コスト最⼩小化, HMM, MEMM, CRF etc. , l  JUMAN, Chasen, MeCab, etc. l  ・・・だけだとよくあるので、最新の⼿手法と過去の⼿手法をまとめる l  現在の問題点に関してもまとめる 3

frsh_mt 2011/10/21

nlp

リンク

Baidu Japan（バイドゥ株式会社）

このページをブックマーク登録されていた方は、お手数ですがブックマークの変更をお願いいたします。なお、このページは５秒後に自動的にジャンプします。自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

frsh_mt 2010/07/16

nlp
event

リンク

DO++ : 部分文字列の話

ここしばらく、部分文字列の統計量を利用した機械学習やデータマイニングをやっている。そこの話からちょっと抜粋。長さnの文字列T[1,...,n]が与えられた時、T中に出現する部分文字列T[i...j] (1≦i≦j≦n）の数はn個の中からiとjの2箇所を選ぶのでO(n^2)個ある。例えば、n=10^6(1MB)だったら、部分文字列の数は約10^12個(1T)と非常に大きい。しかし、これらの部分文字列の出現位置は同じである場合が多い。例えばT="abracadabra"であれば、"abra"と"abr"の出現場所は1番目と8番目であり、全く同じである。では出現位置（部分文字列の左端を出現位置とする）が全く同じであるような部分文字列をまとめてグループにした場合、グループの数はいくつになるのだろうか。これは接尾辞木（wikipedia 授業の資料）を知っているなら簡単に説明できる。 Tに対

frsh_mt 2009/04/28

リンク

自然言語処理は Python がいちばん - 武蔵野日記

現在大学1年生の人で3年後には NAIST に (というか松本研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は Perl → Python がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

frsh_mt 2009/03/29

nlp
python

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

frsh_mt 2009/03/16

リンク

Social IME ～みんなで育てる日本語入力～

Xoi Lac TV – Xem Bóng Đá Trực Tiếp Hôm Nay – Xoilac TV Trực Tuyến Xoilac TV là kênh phát sóng trực tiếp các trận đấu thể thao lớn trên thế giới hoàn toàn miễn phí. Đến với Xoilac, khán giả được thỏa sức lựa chọn và theo dõi những trận đấu mà bản thân yêu thích. Ngoài ra, Xôi Lạc TV cũng cung cấp những thông tin hữu ích liên quan đến trận đấu để các bet thủ có thể dễ dàng đưa ra những nhận định chí

frsh_mt 2009/02/20

リンク

自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

frsh_mt 2009/01/27

研究対象にするドメインをどれだけ絞るかが結構精度にかかわる

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

frsh_mt 2008/12/31

リンク

TinySegmenterをRubyに移植 - llameradaの日記

Javascriptだけで書かれたコンパクトな分かち書きソフトウェアであるTinySegmenterをRubyに移植しました。移植してから別実装があるのに気がつきましたが、気にせず公開することにします。 Codereposにアップしてありますので、下記のURLよりダウンロードできます。 http://svn.coderepos.org/share/lang/ruby/ruby_tiny_segmenter/ MeCabに対するTinySegmenterの利点は、Ruby だけで書かれているので、どんな環境でも簡単に動作する点です。インストールも簡単です。Windows環境でMeCabをRubyから扱うのは少し面倒ですが、TinySegmenterならば殆んど問題ありません。実行例はこんな感じです。 require "tiny_segmenter" words = TinySegmente

frsh_mt 2008/12/25

リンク

論文特集「Webインテリジェンスとインタラクション」論文募集

論文特集「進化計算パラダイムのフロンティア」論文募集近年，Web環境は大きく変革しようとしています．商用の検索エンジンで検索可能な静的なWebページ数は，200億を越えると言われ，ある調査では2000年の時点でDeepWeb中のWebページ数は5 000億を超えたと報告されております．また，データ量の観点だけでなく，近年blogやSNS（ソーシャルネットワーキングサービス）に代表されるような，人間関係を伴った活動も活発化しております．さらに，これらのデータやコミュニケーションは，実世界上の人間関係や物理オブジェクト，地図データなどとも融合を始めております．このような状況において，Webをより高度に活用するためには，人工知能に代表される知的情報処理技術，Web上の情報リソースに効率的にアクセスするためのデータベース技術，Webからの知識獲得を行うための自然言語処理技術，Web上のコミュ

frsh_mt 2008/12/13

research
nlp

リンク

ウノウラボ Unoh Labs: mecabのユーザ辞書を追加した時にはまったメモ

こんにちは satoです。mecabのユーザ辞書を追加したのですが，いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる 5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) sys.dic とユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く 6)追加した辞書に品詞IDが付かない or 65

frsh_mt 2008/12/12

リンク

Mechanize, Hpricot, MeCab でブログの頻出単語を調べる

require 'MeCab' require 'rss' require 'mechanize' require 'kconv' require 'hpricot' require 'open-uri' module MeCab class Node def category return self.feature.split(/,/)[0] end def each(&b) b[self] self.next.each(&b) if self.next end end end agent = WWW::Mechanize.new page = agent.get('http://d.hatena.ne.jp/akio0911/archive') # ページを開く m = MeCab::Tagger.new h={} # エントリへのリンクを抽出 page.links_with(:hre

frsh_mt 2008/12/12

ruby
nlp

リンク

日本語形態素解析APIとマッシュアップ

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog テキスト解析API企画担当のS・Kです。当ブログにおいて一般の開発者の皆様にYahoo! JAPANの高度な日本語処理技術をマッシュアップにお役立ていただけるよう、なじみの薄い日本語処理用語の解説や一般的なご利用方法をお伝えしていきたいと思います。先日、弊社も協力企業として参加しましたMashup Award4において、Techno logy賞を受賞され注目を集めました「Newsgraphy」様にも日本語形態素解析 APIをご利用いただいております。そもそも、形態素解析とは、、言語として意味を成す最小単位の文字列のことを「形態素」と呼び、ある文章をその形態素に分けていく解析のことを「形態素解析」と呼びます。うーん、なんだか難

frsh_mt 2008/12/12

リンク

http://japan.internet.com/webtech/20081204/7.html

frsh_mt 2008/12/04

Blogを対象にすると相当ゴミが多そうですけど。その辺どうやってうまいことやってんのか知りたいです。

リンク

みんなの経験：検索

みんなの経験は、奈良先端科学技術大学院大学自然言語処理学講座とニフティ株式会社の共同研究により開発を行いました。公開にあたりアクセラテクノロジ株式会社およびニフティ株式会社よりブログ記事の収集・解析について協力を受けました。 FAMFA MFAMのアイコンを一部改変して利用しています。 Copyright © 2008 Nara Institute of Science and Techno logy ご不明な点等ありましたら minna AT is.naist.jp までご連絡ください。

frsh_mt 2008/12/04

リンク

単語感情極性対応表

単語感情極性対応表日本語および英語の単語とその感情極性の対応表を、研究目的の利用に限り公開します。感情極性とは、その語が一般的に良い印象を持つか（positive）悪い印象を持つか（negative）を表した二値属性です。例えば、「良い」、「美しい」などはpositiveな極性、「悪い」、「汚い」などはnegativeな極性を持ちます。感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。リソースとして、日本語は「岩波国語辞書（岩波書店）」を、英語はWordNet-1.7.1を使わせていただきました。こちらからダウンロードしてください→[日本語] [英語] フォーマットは、各行が一単語に対応し、見出し語:読み:品

frsh_mt 2008/11/12

おぉ、こういうのを公開していただけると有難いです。

research
nlp

リンク

HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org

This domain may be for sale!

frsh_mt 2008/11/12

便利そう。

リンク

DO++: 機械学習による自然言語処理チュートリアル

自然言語処理のときに使う機械学習手法のテクニックをざーっと２時間程度で紹介してほしいとのことだったので今日話してきました。基本的に、そんなに頑張らなくても効果が大きいものを中心に説明（特にパーセプトロンとか）を説明してます。紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類（CRF, Structured Perceptron）などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習（クラスタリングなど）など他の自然言語処理を支える技術は省いてます。こういうのを使って（使わなくてもいいけど）どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

frsh_mt 2008/08/04

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

frsh_mt 2008/05/07

nlp
search

リンク

「w」（ワラ）の意味も解析!?――NIIと国語研、Yahoo！ブログの記事を学術利用

国立情報学研究所（NII）と国立国語研究所は4月23日、「Yahoo！ブログ」に投稿された記事データを利用した研究を始めると発表した。「w」（笑、ワラ）などネット独特の表現やくだけた文章を含んだブログの内容を分析できる言語解析ツールや、コーパス（言語分析用データベース）などの構築を目指す。データはヤフーが無償で提供する。 4月25日以降に投稿されるYahoo！ブログの記事から季節ごとに数回ずつ、合計500万語以上を抽出。固有名詞や個人の特定に結びつく可能性のある表現を除外し、研究に利用する。全体に公開している記事のみが対象。Yahoo！IDには、「ユーザーがYahoo！で発信したコンテンツを、ヤフーが無償で非独占的に複製する権利を許諾する」という規約があるため、規約に同意していないユーザーでも投稿できるブログコメントは提供データに含まない。ブログデータは、言語学の研究や、ブログの内容を分

frsh_mt 2008/04/23

リンク

はてなブックマーク

タグ

関連タグで絞り込む (27)

nlpに関するfrsh_mtのブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス