タグ

nlpに関するcronecoのブックマーク (120)

  • 『自然言語処理の基本と技術』が面白い! - toricago

    スマートスピーカーが日で急速な普及を迎えている。Amazon Echo、Google Home、LINE WAVEなどを購入し、スマートスピーカーの様々可能性を楽しんでいる読者も多いかもしれない。何かを話しかけることで、アラーム・ストップウォッチ設定やLINEメッセージの読み上げなど、何らかのタスクを実行してくれたり、天気や時間、さらにはニュースなどの情報を提供してくれたり、簡単な会話を楽しむこともできる。 今まで慣れ親しんできたPCのキーボードやスマホのタッチインターフェースとは異なる「音声インターフェース」は新鮮に感じるが、背景では様々な技術が動いている。入り口は声を認識する音声認識だが、その次のステップでは認識した文字列を文章として理解し、スピーカー側として何を実行すればよいのか判断しなければならない。何かを聞かれているのであれば、どのように返答すべきかを考えなければならない。この

    『自然言語処理の基本と技術』が面白い! - toricago
    croneco
    croneco 2018/03/04
  • word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

    英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。 使ったのはEIJI-138.TXT(最新より1つ古いバージョンです) EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的{いみろん てき}に動機付けられた ■semantically-restricted {形} : 意味的{いみ てき}に制限{せいげん}された ■semantics {名-1} : 意味論{いみろん}、記号論{きごうろん} ■semantics {名-2} : 《コ》〔プログラムの〕動作 ■semantics : 【@】セマンティックス、【分節】se・man・tics ■semantics course : 意味論{いみろん}のコース ■semaphore {名-1} : 手旗信号{てばた しん

    word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog
    croneco
    croneco 2017/03/07
  • 自然言語処理と深層学習の最先端

    第4回 JustTechTalk の発表資料

    自然言語処理と深層学習の最先端
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a compu

    croneco
    croneco 2014/05/19
  • 社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

    会社で最近始まった論文の輪講で担当だったので、発表をした。 論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。 内容 内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング 紹介したものを少し修正したものをアップした。 感想 1つ目はスコアリングの際にトピックを考慮することによ

    社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog
    croneco
    croneco 2014/05/07
  • brat rapid annotation tool

    Learn more: What is it? What can you do with it? What does it do? What do I need to run it? Create your own local brat installation: Download v1.3 Manage your own annotation effort Easy to set up: installation instructions Instructions for upgrading to v1.3 (Crunchy Frog) Open source (MIT License) Current version: v1.3 Crunchy Frog (2012-11-08).

    croneco
    croneco 2014/02/05
  • Microsoft PowerPoint - 21COE07Mar7.ppt

    1 法令文書の自然言語処理 2007. 3. 7 島津 明 目次 • 法令工学と自然言語処理 • 法令文の分析 • 法令文の解析 法令工学 • 法令が,各法令の制定目的にそって適切に作られ,論理的矛盾や文書 的問題がなく,関連法令との整合性がとれていることを検査・検証し,法 律の改定に対しては,矛盾なく変更や追加削除が行われることを情報科 学の手法を用いて支援(片山) • 法令を実働化している情報システムを設計する技術を研究開発するため のもの(片山) • 法令が対象とする世界のモデル化,対象とする概念や概念関係,それら を表現する語彙の選択,それらに基づく文章化等の支援 法令工学の視点からの自然言語処理 • 法律条文を論理式で形式的に表現して,論理的矛盾や整合性の検査・ 検証を行うために,法律条文を自然言語処理により形式表現に変換する. • 自然言語処理により論理的矛盾や整合性の検査・検

    croneco
    croneco 2012/11/20
    法令文書の言語解析
  • Microsoft PowerPoint - 島津

    1 法令文書の言語解析 島津 明 JAIST 2007. 9. 7 「法律」と聞いて何を連想? • 人を縛るもの? • 社会や経済を整えるもの? • 硬くて複雑なもの? • 社会を対象 「工学」と聞いて何を連想? • 科学の応用, • 役に立つものの作り方, – 橋,建築,機械,船,飛行機,計算機,ソフトウェア,... • ソフトウェアが対象とするものは社会を反映 2 • 法律もソフトウェア • 法令 ⇒ 情報処理システム • 人工知能 – 知識表現 – 表現形式の研究は多いが,具体的記述は少ない. • ソフトウェア工学 – オブジェクト指向 – 領域理論: 知識の表現 法令工学における言語処理の役割 • 法令工学の目的達成に利用 法令工学の第一の目的 法令(契約書,社内規定等を含む)がその制定 目的にそって適切に作られ,論理的矛盾や文書 的問題がなく,関連法令との整合性がとれている こと

    croneco
    croneco 2012/11/20
    法令文書の言語解析
  • 情報学広場:情報処理学会電子図書館

    croneco
    croneco 2012/09/06
  • Dipus - (主にSphinx向け) 全文検索サーバー — そこはかとなく書くよん。 ドキュメント

    Dipus - (主にSphinx向け) 全文検索サーバー¶ Sphinxの検索はデフォルトだとJavaScriptベースであまりいけてないので、 dipusっていうのを作ってみました。これは、Whoosh というPure pythonの全文検索エン ジンを使った全文検索サーバーです。 pypi: http://pypi.python.org/pypi/dipus bitbucket: http://bitbucket.org/r_rudi/dipus dipusは、sphinxとの連携に重点をおいて開発しており、sphinxのbuilderが付 属しています。そのため、文書の登録はsphinx-buildを実行するだけで完了し ます。 ちょっとした手間でsphinxの検索をいけてるものにします。というか、まだ開 発途中なのでしたいです、ですが。 なお、dipusは会社など非公開の場所で動

    croneco
    croneco 2012/08/23
  • 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    関口宏司のLuceneブログ
  • テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜

    「遊び」をクリエイトするAI デスピサロを相手に、効くはずのないザラキを唱えまくるクリフトを見ながら、AIというのはなんてアホなのだろうと思った。多分、それが、僕が初めてAIに出会った瞬間だったと思うのだけど、時は過ぎ、現代では生成AIを中心とした「かしこいAI」たちが世に溢れていて、…

    テキストマイニング技術の活用に向けて読んでおきたい12のプレゼン資料 - コーパスいぢり 〜langstatの研究日誌〜
    croneco
    croneco 2012/05/05
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

    croneco
    croneco 2012/05/05
  • 言語処理100本ノック - 東北大学 乾研究室 / Inui Lab, Tohoku University

    FrontPage / 言語処理100ノック 3 秒後に NLP 100 Drill Exercises に移動します。 (移動しない場合は、上のリンクをクリックしてください。) © Inui Laboratory 2010-2018 All rights reserved. 研究室紹介/About Us 過去に在籍したメンバー Members 研究室環境 Lab Facilities ↑研究会/Research Meetings 概要 Overview 総合研究会 Research Seminar 意味研究会 SIG Semantics 談話研究会 SIG Discourse 知識獲得研究会 SIG Knowledge Acquisition Embedding研究会 SIG Embedding KIAI Knowledge-Intensive Artificial Intellige

    croneco
    croneco 2012/04/13
  • たぶん30分でよくわかるLOUDS入門 - EchizenBlog-Zwei

    IMEの効果でLOUDSの認知度が高まってきた気がする。が、一方で難しいという意見もチラホラある様子。 というわけでLOUDSをどこまでわかりやすく説明できるか?ということに挑戦したくなったので記事を書いてみるよ。 LOUDSというのは木を表すデータ構造。木というのは以下のようなものを想像すればよい。 この木を表すデータ構造を作りたい。単純に考えると各ノード毎に子ノードのIDを持たせておけばよい。つまり 0 => {1, 4, 5} 1 => {2, 3} 2 => {} 3 => {} 4 => {} 5 => {6} 6 => {7}というようなものを考える。ここで各IDと子ノード数を各1バイトで管理したとして 0 => {1, 4, 5} # 1 + 3 = 4バイト 1 => {2, 3} # 1 + 2 = 3バイト 2 => {} # 1 + 0 = 1バイト 3 => {}

    たぶん30分でよくわかるLOUDS入門 - EchizenBlog-Zwei
    croneco
    croneco 2012/03/05
  • FrontPage - PukiWiki

    概要 京都大学情報学研究科と日電信電話株式会社NTTコミュニケーション科学基礎研究所は、 共同研究ユニットという新しい研究組織を構成して自然言語処理の研究を共同で進めることに合意し、 2004年度から5年間の計画で、研究活動を開始しました。 この研究ユニットは、NTT京阪奈ビルに研究拠点を構え、ここを中心として、 実質的な研究交流と共同研究を行っていくことを目的としました。 また、京都大学とNTTという2つの組織の共同研究という枠を越え、 けいはんな地区を起点とした他の研究機関の研究者にも参加いただくオープンな共同研究ユニットとして 活動して参りました。 沿革 主な研究テーマ グローバルコミュニケーションを支える言語処理技術の研究として、主に、深い意味解析を指向する言語資源の開発を行って参りました。 MeCab 言語, 辞書,コーパスに依存しない汎用的設計の形態素解析器。パラメータの推定

    croneco
    croneco 2012/03/05
  • MeCabの辞書にはてなキーワードを追加する際に地域名(千葉県など)を省くようにする方法 - uncertain world

    以前,id:code46さんのMeCabの辞書にはてなキーワードを追加しようの記事を見て,ウヒョースゲーと思って入れたのですが, 最近になって,全キーワードを名詞に入れてるとよろしくないなと気付き, いまちょっとつまづいてる県名などの地域名だけ省けるようにした. 修正するのは,createDict.pyのみです. # -*- encoding: utf-8 -*- import sys import re import MeCab # MeCabを利用する m = MeCab.Tagger ("-Ochasen") #数字四桁が入ったキーワードは役に立ちませんので検出して飛ばします。 year = re.compile("[0-9]{4}") #驚くべきことにはてなキーワードには%00というキーワードがありますが、 #これがcsvとして提供されているダンプではヌル文字になっているのでシステ

    MeCabの辞書にはてなキーワードを追加する際に地域名(千葉県など)を省くようにする方法 - uncertain world
    croneco
    croneco 2012/03/05
  • GoPython Blog ImportError: libmecab.so.1: cannot open shared object file: No such file or directory

    $ wget http://*****/~ $ tar zxfv mecab-python-***** $ cd mecab-python-**** $ python setup.py build $ su # python setup.py install # exit $ python >> import MeCab ************** ImportError: libmecab.so.1: cannot open shared object file: No such file or directory >> $ su # vi /etc/ld.so.conf /usr/local/lib # ldconfig # exit $ python >> import MeCab >> m = MeCab.Tagger() >> print m.parse("すももももももももの

    croneco
    croneco 2012/03/04
    mecabのlibmecab.so.1: cannot open shared object file: No such file or directoryの解決法について。/etc/ld.so.confに/usr/local/libを追加する。
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 日本語入力を支える技術という本を書きました - 射撃しつつ前転 改

    (追記):「このに書かれていないこと」という項を追加しました。 以前も告知しましたが、日本語入力を支える技術というを書きました。技術評論社から2012年2月8日に発売されます。(私の知っている限りでは、ジュンク堂池袋店、有隣堂AKIBA店、丸善丸の内店、書泉ブックタワーでは既に先行販売しているよう…でしたが、ジュンク堂池袋店、有隣堂AKIBA店、書泉ブックタワーは先行販売分は売り切れの模様です。)どんななのか、目次などについては公式ページを参照していただくとして、以下ではどんななのか宣伝したいと思います。 こののキーワードは「実装」と「初心者向け」です。初心者でも実装ができるようにサンプルコードを多用し、また数式が出てくる部分に関してはちょっとしつこいぐらいに説明を加えました。私自身の経験からすると、を読んだで理解したと思っていても、大抵の場合、細かいところはわかっていないもの

    日本語入力を支える技術という本を書きました - 射撃しつつ前転 改
    croneco
    croneco 2012/02/03