タグ

nlpに関するm-kawatoのブックマーク (30)

  • 日本語で読める自然言語処理の参考書まとめ - 武蔵野日記

    第5回入力メソッドワークショップのために京都へ。元々はオープンソース界隈の入力メソッド開発者が中心になって年に1回集まる(同窓)会だったのだが、ここ数年は大学で入力メソッドのレイヤーの研究をしている人や実際に MS, Apple, Google 等入力メソッドの開発に関係している人が中心になってきている。入力メソッドを現在開発していなくても、過去に作っていた人もいらっしゃるので、いろいろとおもしろいお話が聞ける。 自分は去年までは奈良・京都からの参加なので近かったが、今年から東京に引っ越したので、朝起きて品川経由で京都まで。7時40分の便だったが、満席でびっくりした。そうか、世の中的には今日が帰省のピークなのか。 米原で雪のため少し遅れたが、10分遅れで京都に着いたら晴れていた。ワークショップ開催まで時間があったので、NAIST の [twitter:@tom_shibata] さんと近鉄

    日本語で読める自然言語処理の参考書まとめ - 武蔵野日記
  • 機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development

    岡野原です。 情報処理学会主催の連続セミナー「ビッグデータとスマートな社会」での機械学習の回、自然言語処理の回での講演資料を公開しました。 今年はビッグデータという言葉が広まったということで、このテーマで話す機会が多かったです。今はビッグデータというとそれを支えるインフラ、クラウド、DBなどがまず注目されていますが、我々としては実際それを使って何をするのか、何が実現できるのかというところを注目しています。 PFIは元々こうしたデータを分析して価値を提供する(検索エンジンとかもその範疇に入ると思います)ことをずっと続けてきたわけですが、ビッグデータという言葉が広まってくれたおかげでこの考えがより受け入れられ様々な業界の方と随分と話がしやすくなったと思います。 以下の講演資料では、今ビッグデータの中でも機械学習と自然言語処理の分野において我々がどこに注目しているのかを話をしました。

    機械学習と自然言語処理とビッグデータ - Preferred Networks Research & Development
    m-kawato
    m-kawato 2012/12/25
    あとで読む
  • NAIST で twitter 言語判定について発表してきました - 木曜不足

    5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。 その時の資料を公開します。 内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したものをちょっと丁寧に+αした感じ。 Short Text Language Detection with Infinity-Gram View more presentations from Shuyo Nakatani NAIST 小町さんから M1 向けのセミナーで発表してみませんかとお話をいただいて、「ぜひやります」と二つ返事でお引き受けしたものの、当に中谷でいいんだろうかーとあとから心配になったのはないしょw 小町さんからは、機械学習や自然言語処理を実応用で使っているエンジニアの立場、というところを学生さんに

    NAIST で twitter 言語判定について発表してきました - 木曜不足
  • Tree Edit Distanceと自然言語処理への応用 - Preferred Networks Research & Development

    海野です。ちょっと時間があいてしまいましたが、昨年の12月に開催されたNTCIR-9という会議のRecognizing Inference in TExt (RITE)というタスクに、前職の方々と共著で出場しました。 Syntactic Difference Based Approach for NTCIR-9 RITE Task. Yuta Tsuboi, Hiroshi Kanayama, Masaki Ohno and Yuya Unno. NTCIR-9, 2011. [pdf] 含意関係認識といわれるこのタスクは、大雑把に言うと与えられた2つの文が同じ意味のことを言っているかどうか判定しなさいというタスクです(厳密には一方からもう一方が帰結できるかの判定です)。今日は、その中で使ったTree Edit Distance (TED) について解説します。 TEDは2つの順序付き木が

    m-kawato
    m-kawato 2012/02/14
    いつか読む
  • 自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei

    @tkngさんの力作「日本語入力を支える技術」が2/8に発売される。既に秋葉原のヨドバシ有隣堂や池袋のジュンク堂店では早売りされている様子。ってことで早速購入してきた。 書が扱うテーマはGoogleIMEのような「日本語入力」のシステム。これだけだとさして興味ないや、って人も多いかもしれない。ところがこの日本語入力というのは技術的には形態素解析に非常に近い。自然言語処理やテキストマイニングに関わる方にとっては形態素解析は最も基的かつ重要な技術。その仕組みを知っておくのは非常に重要だと思う。 また日本語入力(形態素解析)は技術的には機械学習、グラフの最短経路問題、簡潔データ構造など多くの分野が関わっているので「日本語入力」を理解することでこれらの多くの基礎技術の具体例を体感できるというメリットがある。 そんな日本語入力をまとめて勉強できるのが書「日本語入力を支える技術」である!ばーん

    自然言語処理とか機械学習とかグラフとか簡潔データ構造とか全部入った良書「日本語入力を支える技術」がすごい - EchizenBlog-Zwei
  • 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記

    先日献いただいた「入門ソーシャルデータ データマイニング、分析、可視化のテクニック」 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るを読了 (多謝!)。tkng さんも書評を書かれているし echizen_tm さんも書評を書かれているので、いまさら感は否めないが、別の観点から少し寸評。書は、データを抽出してからの可視化の方法が全体の半分以上を占めていて、そういう方法を知らない人には参考になると思う。 研究のための実験をしていても、実は地味に重要なのは機械学習

    『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記
  • 自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな - EchizenBlog-Zwei

    自然言語処理の優秀なエンジニア各位にオススメを聞くと大抵FSNLP(Foundations of Statistical Natiral Language Processing)という答えが返ってくる。またブログ等でFSNLPを絶賛している方も多い。 私は自然言語処理は長尾で満足してしまっていたのでFSNLPは読んでいなかったのだけれど、長尾は現在入手困難ということもあって入手しやすい自然言語処理の教科書があるといいなと思っていたのでFSNLPを読んでみた。 その結果。自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな。という結論に至ったので全力でFSNLPを推薦する記事を書くことにした。 参考: [を]FSNLP @ytoさん 自然言語処理の定番の教科書まとめ - 生駒日記 @mamorukさん Perl で自然言語処理 @overlastさん ざっと読んでみてFSN

    自然言語処理の教科書はもう全部FSNLP一冊でいいんじゃないかな - EchizenBlog-Zwei
  • NICT、複数人による多言語会話の翻訳アプリ「ChaTra」のiPhone版を公開 | ネット | マイコミジャーナル

    独立行政法人情報通信研究機構(NICT)は、10月13日に発表したスマートフォンを利用して異なる言語を話す複数人が、同時にチャットのように会話ができる、音声翻訳アプリ「ChaTra(チャトラ)」について、10月26日よりApp Storeでの無料公開を開始したことを発表した。 NICTでは、多言語の自動音声翻訳技術の研究成果の周知やユーザビリティ調査を目的として実証実験を行っており、2010年8月にiPhone用、2011年4月にAndroid用の音声翻訳アプリケーション「VoiceTra」を無料公開している。VoiceTraは、単体の端末から音声翻訳利用を想定しており、これまで50万件を超えるダウンロード数となっている。 今回公開されたChaTraは、このVoiceTraの機能を応用したもので、会話しようとする複数人(最大5人)が、それぞれの端末間(iPhoneAndroid用の端末)

    m-kawato
    m-kawato 2011/10/29
    ぬこ的なマスコットキャラ希望
  • Android版「Google Translate」、日本語を含む14カ国語の音声翻訳が可能に

    Googleは10月13日(現地時間)、Android向け翻訳アプリ「Google Translate」の音声翻訳機能を日語を含む14カ国語に対応させたと発表した。 同アプリは3月、「Crisis Response版」として日語と英語スペイン語の間での音声翻訳に試験的に対応していたが、今回正式に、日語、ポルトガル語、チェコ語、オランダ語、フランス語、ドイツ語、イタリア語、韓国語、中国語、ポーランド語、ロシア語、トルコ語をサポートした。 アプリを起動してオリジナル言語と翻訳先言語を選び、入力枠の右横にあるマイクアイコンをタップしてマイクに向かって話すと、指定した言語に翻訳したテキストが表示され、スピーカーアイコンをタップするとそのテキストが読み上げられる。 α版の「会話モード」にすると、画面の上下に2つのフキダシが表示され、例えば日語→英語は上のフキダシをタップして入力し、英語

    Android版「Google Translate」、日本語を含む14カ国語の音声翻訳が可能に
  • twitterで自然言語処理 - Preferred Networks Research & Development

    勢い余ってスイカを買ったら、毎日べるハメになってしまいました。海野です。 どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。 数えてみたら、重要国際会議であるACLで6件、EMNLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

    twitterで自然言語処理 - Preferred Networks Research & Development
  • Twitterなどの安否情報を「Google Person Finder」に、研究者がプロジェクト開始 

    m-kawato
    m-kawato 2011/03/16
    "データの解析器の制度を高めるため、Twitterの安否情報関連のツイートデータに固有表現や安否情報タグを付ける作業を、参加者が分担して進めており"
  • TechCrunch | Startup and Technology News

    Holy procrastination, startup founders! Tomorrow’s your last chance to apply to the Startup Battlefield 200 at TechCrunch Disrupt 2024. Your last chance for a shot to stand on the Disrupt…

    TechCrunch | Startup and Technology News
  • 統計的自然言語処理エンジンStaKK - nokunoの日記

    統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ

    m-kawato
    m-kawato 2010/11/24
  • 入門 自然言語処理を禁書にすべき10の理由 | TRIVIAL TECHNOLOGIES on CLOUD

    みんなのIoT/みんなのPythonの著者。二子玉近く160平米の庭付き一戸建てに嫁/息子/娘/わんこと暮らしてます。月間1000万PV/150万UUのWebサービス運営中。 免責事項 プライバシーポリシー 「入門 自然言語処理」はヤバい書籍なので禁書にすべきだ。 タイトルは釣りじゃない。その理由を10個挙げる。 自然言語処理のかなり基的なことからそこそこ高度なことについて解説されてあり,自然言語処理について理解が深まり過ぎる ボリュームがあるのに書き方が平易でついつい読みふけってしまう 演習問題があり,自分の理解度を確かめられたりするのもケシカラン 原著は欧米語のための言語処理について書かれた書籍なのに,日語の形態素解析などについても解説してあって我慢できない 必要ライブラリのインストールなど環境構築に時間が取られそうでヤバい 書籍の応用でBotとか人工無能とか作ったらどうかな−,と

    m-kawato
    m-kawato 2010/11/16
    この芸風は見覚えがあるが思い出せない
  • 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足

    第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani 内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。 前回の「文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。 精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。 というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗 楽しんでいただけた

    自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - 木曜不足
  • 自然言語処理の定番の教科書まとめ - 武蔵野日記

    自然言語処理や機械学習でいくつか新しい教科書的なものが登場してきたので、まとめてみようと思う。 教科書について。Introduction to Information Retrieval Introduction to Information Retrieval 作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を見るの翻訳が進んでいる(あとこれを研究室の輪読に使っていたりする)という話を聞いたりするのだが、やっぱり知識として知っておくべきというのと、そこから超えていくというのは違うものであって、どれだけ研究が進んでも、分

    自然言語処理の定番の教科書まとめ - 武蔵野日記
  • 自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life

    先日中川さん(id:Psychs)によってEchofon for Macのベータ版がnaan studioからリリースされました。 http://echofon.com/twitter/mac/ http://d.hatena.ne.jp/Psychs/20091001/1254351633 必要な機能をシンプルにまとめたTwitterクライアントでとても使いやすいです。(個人的にはあとjk移動がほしい) さてEchofonはTwitterのログを保存する際にSQLiteを使っているのが一つの特徴です。 そのため自分の過去ログをいじっていろんなことができておもしろいです。 例えば自分がフォローしている人たちだけを対象にしたbuzztterみたいなことを実現することができます。 (Twitter語圏全体からのホットなキーワード抽出として、ぼくは@yazztterというのを作っています:)

    自分がフォローしている人たちだけのbuzztterみたいなものを実現する with Echofon - Unchained Life
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • クラスタリングツール bayon がとてつもなく素晴らしいです!

    クラスタリングツール bayon がとてつもなく素晴らしいです! 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル(Tutorial_ja - bayon) http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、 たまたま手元に250万件のデータ(ラベル+特徴語リスト)があったのでさっそく試してみました。 ドキュメント数250万件。 各ドキュメントの特徴を現すキーの平

    クラスタリングツール bayon がとてつもなく素晴らしいです!
  • 自然言語処理における半教師あり学習のテキスト - 武蔵野日記

    最近移動続きであまり研究に時間は割けないのだが、は読めるということでを2冊、サーベイ的な記事を3(うち2はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見る を読む。このの著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

    自然言語処理における半教師あり学習のテキスト - 武蔵野日記