タグ

nlpに関するnhayatoのブックマーク (537)

  • Ryan McDonald

    I am interested in language technologies. The core algorithms and models used in things like machine translation, virtual assistants and, more broadly, information retrieval. I am a Research Fellow (formerly Chief Scientist) at ASAPP. ASAPP is doing amazing research in NLP and ML applied to customer service. I am also an Associate researcher in the NLP group at Athens University of Economics and B

    nhayato
    nhayato 2014/02/28
  • 1Checkerを使ってみた - 発声練習

    TechCrunch:ノンネイティブが書いた英語の間違いをMicrosoft Wordよりも細かく見つけてくれる1Checkerを読んで素晴らしいと思ったので実際に使ってみた。 1CheckerはFacebookアカウントでもアカウント作成できる。その際に使われる情報は名前、メールアドレス、誕生月日。 使う方法は以下のとおり。今回は専用アプリで使ってみた。 Webブラウザ経由 専用アプリ(Windows, MacOS) MS Word 連動 MS Outlook 連動 良い点 Wordのスペルチェックと同等のことをしてくれる 形容詞の重ね方(上記のエントリーで説明されているやつ)を指示してくれる 適切な前置詞の提案をしてくれる 適切な用語の提案をしてくれる テキストファイルをまるごと入力として受け付ける 修正した結果をテキストファイルとして保存できる(元のファイルに上書き可能) 物足りない

    1Checkerを使ってみた - 発声練習
    nhayato
    nhayato 2014/02/25
  • The Growing Importance of Natural Language Processing

    Skip Article Header. Skip to: Start of Article. Interest in natural language processing (NLP) began in earnest in 1950 when Alan Turing published his paper entitled “Computing Machinery and Intelligence,” from which the so-called Turing Test emerged. Turing basically asserted that a computer could be considered intelligent if it could carry on a conversation with a human being without the human re

    The Growing Importance of Natural Language Processing
    nhayato
    nhayato 2014/02/23
  • 機械学習/テキスト処理 × Lua (LuaJIT) - ny23の日記

    Python で書いた Passive Aggressive-I が C++ 実装に比べて50倍遅かったので,(スクリプト言語でも)もう少しぐらい速くならないかと思って,スクリプト言語で最速の処理系 (LuaJIT) を持つ Lua で Passive Aggressive-I を実装してみることにした. Lua はアプリケーションへの組み込みを意図し,高速な動作,ポータビリティ,拡張の容易さなどを重視して設計されたコンパクトな汎用スクリプト言語.今月の TIOBE Programming Community Index では Ruby の一つ下の12位にランキングされている*1.これは,iPhone アプリの開発者による利用が増えているというのが大きい*2と思うが,プログラム言語の設計者たちへのインタビューを纏めた Masterminds of Programming(邦訳: 言語設計者

    機械学習/テキスト処理 × Lua (LuaJIT) - ny23の日記
  • 都立大 自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍

    自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下のを推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下のを推薦します。 (数式なし)自然言語処理の基技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない)で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいいです。(それでもどうしても、意地でも読みたい人は、家にある Python 3 対応

    nhayato
    nhayato 2014/02/22
  • Yotaro Watanabe - ChaPAS: Yet Another Japanese Predicate Argument Structure Analyzer

    chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。 モデルファイルは、ipa品詞体系のデータで学習したものです。 確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c

    nhayato
    nhayato 2014/02/21
  • 教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ

    ※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す

    教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
    nhayato
    nhayato 2014/02/18
  • いまさら聞けない “モデル” の話 @DSIRNLP#5

    1. いまさら聞けない “モデル” の話 DSIRNLP #5 (ゆるふわ枠) 2014/01/11 @スマートニュース株式会社 Koji Matsuda a.k.a @condiAonal ※発表スライドは後ほどslideshareに公開します 1 2. 自己紹介タイム •  学生でも教員でも無いですが,大学にお世話になっています •  すずかけ論文読み会という勉強会で月イチくらいで発表して ます –  多摩川以西(?)の機械学習屋さん(ファン)で小規模に –  現在のところクローズド.発表資料の多くは参加者により公開されて います. •  求職中です!!!! 2 3. ことの始まり 2013年初夏:研究室(自然言語処理メイン)の メンバーと草津温泉に行きました.その車中にて. 学生 さん 先生から「モデルを考えよう」というアドバイスを頂くのです が,具体的に何をしたらいいのでしょう?

    いまさら聞けない “モデル” の話 @DSIRNLP#5
    nhayato
    nhayato 2014/02/14
  • https://people.cs.umass.edu/~wallach/how_to_be_a_successful_phd_student.pdf

  • PPDB:Japanese - 日本語言い換えデータベース

    The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日語の言い換えデータ集です。 ダウンロード 最新版:PPDB:Japanese 0.0.1 仕様情報 一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。 翻訳 さ れ た ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報 以下の情報をご利用ください。 水上 雅博,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲. 日語言い換えデータベースの構築と

    nhayato
    nhayato 2014/02/04
  • Automatic Summarization (2014)

    In this work, we introduce a new Markov operator associated with a digraph, which we refer to as a nonlinear Laplacian. Unlike previous Laplacians for digraphs, the nonlinear Laplacian does not rely on the stationary distribution of the random walk process and is well defined on digraphs that are not strongly connected. We show that the nonlinear Laplacian has nontrivial eigenvalues and give a Che

    Automatic Summarization (2014)
  • テキストアノテーションツール brat がすごい件 | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    テキストアノテーションツール brat がすごい件 | 関口宏司のLuceneブログ
    nhayato
    nhayato 2014/01/30
  • MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ

    mecab-ipadicのCRF学習モデルが追加されたことにより、辞書に単語を追加しやすくなったようだ。 http://sourceforge.jp/projects/mecab/lists/archive/users/2012-June/000456.html 以前のMeCabの場合、単語追加をする場合は、追加したい単語と似ている単語のコスト値からなんとなく予測して追加する必要があって、結構やりにくかった。なので、どのぐらいやりやすくなったかを早速試してみた。 まず、自分のローカルにMeCabをインストールした。 また、ipadicのモデルファイルしかないようなので、ipadic辞書を入手する。 http://code.google.com/p/mecab/downloads/detail?name=mecab-0.994.tar.gz&can=2&q= http://code.goog

    MeCabのipadic辞書への単語追加(ドメイン適応) - 気ままなブログ
    nhayato
    nhayato 2014/01/18
  • 「モデル」とは何か,について考えていたことを,DSIRNLP(データ構造と情報検索と言語処理勉強会)で発表してきました - a lonely miner

    先日, @overlast さんから,DSIRNLP(データ構造と情報検索と言語処理勉強会 )という会にお誘いを頂きまして,以前から考えていたことをちょこっとお話してきました.当日の様子は, @mamoruk さんが togetter にまとめてくださっていますので,そちらもご覧ください. 第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - Togetterまとめ 私の発表スライドは slideshare に置いておきました.いくつか直したいところがあるので,そのうち差し替えるかも. いまさら聞けない “モデル” の話 @DSIRNLP#5 from Koji Matsuda 他の方々がものっそい最先端な話ばかりのなか,私一人だけがひどくぼんやりとした内容でたいへん恐縮でしたが,問題意識を共有するきっかけを頂けたことに感謝しています. そもそもこの話をしようと思ったきっかけ

    nhayato
    nhayato 2014/01/15
  • 大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm

    前に以下のような記事を書きましたが、大量のテキストではうまくいかなかったので新たに書きました ファイルからランダムにN行取り出す(shufコマンド) - 唯物是真 @Scaled_Wurm 上の記事ではテキストをランダムに\(k\)行取り出したい時"shuf -n k"コマンドでランダムにシャッフルした\(k\)行を取り出していました ところが非常に大きなテキストファイルに対して上のコマンドを実行すると、一度にデータを全部メモリに読み込み始めているのか、すごい勢いでメモリを消費していきました(sort -Rでも) そこでメモリをあまり使わずにランダムに\(k\)行取り出す方法について調べました まず基的な非復元抽出のアルゴリズムは以下の記事の発展手法とか追記のあたりの話がわかりやすいと思います 非復元抽出の高速かつ実装が簡単な方法を考える - 睡眠不足?! この記事の話も一度全部の要素を

    大量のテキストからランダムに少数の行を抽出したい - Reservoir Sampling - 唯物是真 @Scaled_Wurm
    nhayato
    nhayato 2014/01/11
  • 神戸市兵庫区のトイレつまり修理【1,200円〜】水道局指定業者の水協

    弊社は神戸市兵庫区水道局より認定を受けた水道局指定業者ですので安心してご相談ください。トイレや排水溝などのつまりや水漏れなど、あらゆる水回りのトラブルに適切に対応させていただきます。 1200円〜の業界最安値水準の低価格で修理対応しております。もちろんトラブルの原因によって価格は異なりますが、神戸市兵庫区内のお宅ではまずは無料出張で現地を確認、無料でお見積もりをご提出させていただきます。その際に価格やサービス内容にご納得いただけずお断りいただいた場合は一切費用はかかりませんので、まずはお気軽にご相談ください。

  • 日本,日本語,自然言語処理 - 蝉々亭

    2013年も日で最後となりましたが,いかがお過ごしでしょうか.まだ掃除も終わっていないのでこんなエントリを書いている場合ではないのですが,整理のためにも書いておきたいと思います. 最近,自分のキャリアについて考えることが多くなってきました.現職についてあと3ヶ月程度で丸6年となりますが,年齢においても,生活においても,職業人としての到達点においても最近一つの区切りを迎えたということがあり,これまでを振り返って今後の方向性を検討する時期にあるように思っています. そんな中で何冊かキャリアに関するを読みましたが,自然言語処理分野の研究者としていささか考えさせられるものがあったのは『10年後にえる仕事えない仕事』というです.このの要点は日人メリットを活かした仕事をすればいっぱぐれない,というある意味では素朴(かつごく妥当)なものですが,興味深いのは数ある職業を 1.技能集約的か

    日本,日本語,自然言語処理 - 蝉々亭
  • 鬱ツイート判定器を作った | 774::Blog

    ツイート判定器を作った。 ツイート判定器 http://depression.id774.net/depression/ ツイートの内容を入力するか貼り付けて送信すると「ツイート」かどうか判定してくれる。 あれっ、これもしかしてツイートかな?と思ったときや、この人ってツイートしているんじゃないかな?と思ったときなどにご利用ください。 実装にあたってはこちらの記事を参考にしました。 またソースコードはこちらに公開してあります。 スコアについて、トータルスコアは全語彙の平均を 3 乗したもので数値が低ければ低いほどです。 -0.20 以下がツイートと判定されます。

  • KNP MEMO

    構文・述語項構造解析器KNPに関するメモ 概要 公式ページ@京大黒橋・河原研 デモ (形態素解析:JUMAN 7.01,省略・照応解析:KNP 4.20) 使い方に関するメモ KNPのインストール KNPの主なオプション KNPへの入力 基的な出力の読み方 照応解析に関して 固有表現認識に関して 関連する論文 解析の流れと特徴[笹野+] [ja] [slides] 構文・格解析[河原&黒橋] [ja] [en] 固有表現認識[笹野&黒橋] [ja] [en] 共参照解析[笹野&黒橋] [ja] [en] ゼロ照応解析[笹野&黒橋] [ja] [en] 連想照応解析[笹野+] [ja] [en] Ryohei Sasano

    nhayato
    nhayato 2013/12/25
  • https://jp.techcrunch.com/2013/12/06/20131205who-is-the-real-satoshi-nakamoto-one-researcher-may-have-found-the-answer/

    https://jp.techcrunch.com/2013/12/06/20131205who-is-the-real-satoshi-nakamoto-one-researcher-may-have-found-the-answer/
    nhayato
    nhayato 2013/12/06