タグ

NLPに関するhide_o_55のブックマーク (210)

  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
  • 忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas

    「ドーモ。自然言語処理屋=サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。 「アイエエエエ! ケイタイソカイセキ!? ケイタイソカイセキナンデ!?」 小説『ニンジャスレイヤー』の日語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語」 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。 かつてニンジャが横行していた時代、日の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。

    忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas
  • 都立大 自然言語処理研究室 - 自然言語処理が学べる研究室

    2023年3月をもちましてこちらのページの更新を停止します。ご活用いただき、ありがとうございました。 自然言語処理を学ぶことができる研究室をリストアップします。自然言語処理の研究をしている(= 国内では言語処理学会を主な研究発表の場所としている)教員が2名以上いる大学が対象です(私立大学は早稲田大学と法政大学と豊田工業大学です)。うち、教員が1研究室で3人以上いるのは北大荒木研、東北大乾研、筑波大山研、東工大奥村研、名大外山研、京大黒橋研、NAIST中村研(ただし中村先生定年のため2022年現在募集停止)、NAIST渡辺研、NAIST荒牧研です。教員が1人だけしかいない研究室と、3人以上いる研究室(特に博士後期課程の在学生が多いところと)は質的にも量的にも違うと思いますので、博士後期課程に進学するつもりの人は、少なくとも1カ所はそれらの研究室を見学したほうがよいでしょう。博士前期課程から

  • ニューラル言語モデルは何を目的としているのか? 〜 「A Neural Probabilistic Language Model」を途中まで読んだ - 病みつきエンジニアブログ

    word2vecでさんざん遊んだ皆さん、こんにちは。 今日は、word2vecの元になった論文の元になった論文の先行研究になっている論文「A Neural Probabilistic Language Model(Yoshua Bengio)」の紹介です。 word2vecは、単語の素性で足し算・引き算ができたり、単語の類推(アナロジー)ができたり、単語の素性の面白さが注目されています。とは言え、ニューラルネットによる言語モデルは、別に単語の素性で遊ぶために作られたわけではありません。 ということで、ニューラルネットによる言語モデルの家(?)である「確率的ニューラル言語モデル(Bengio先生)」の論文から、「そもそも何を目的にモデリングしているのか」「なぜニューラル言語モデルが必要なのか」というあたりを、紹介したいと思います(主にIntroductionの部分、ということになります。)

  • 単語の数学的表現メモ - Negative/Positive Thinking

    はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

    単語の数学的表現メモ - Negative/Positive Thinking
  • Deterministic Word Segmentation Using Maximum Matching with Fully Lexicalized Rules

    Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 79–83, Gothenburg, Sweden, April 26-30 2014. c 2014 Association for Computational Linguistics Deterministic Word Segmentation Using Maximum Matching with Fully Lexicalized Rules Manabu Sassano Yahoo Japan Corporation Midtown Tower, 9-7-1 Akasaka, Minato-ku, Tokyo 107-6211, Japan msass

  • Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

    統計処理用のマシンを使って、自然言語処理で遊ぼう! BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニア相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください! 記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) ―― BTOパソコンのショップ/サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。 データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです! ▽ 【パソコン工房公式サイト】BTOパソコン(PC)の通販 ―― ということで、はて

    Python - Perl + Java = ? はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース
  • (ry - skozawa's blog

    (ry という表現がなぜか気になったので、分析してみた (ryとは (イカリャクとは) [単語記事] - ニコニコ大百科とは (ryとは『以下略』を意味するネットスラングであ(ry 由来は、『(略)』とタイピングする際に、ローマ字で(ryaku)とする表記かr(ry つまりこの言葉は略の略で、「わざわざ全部言わなくても(ry」というメッセージが(ry 転じて「(ry」と(ry 使用する箇所としては、わざわざ言うまでもない・言いにくいこt(ry しかし、使いすぎるとめいわk(ry なので、用法容量を(ry個人的にはまったく使わない表現だけど、言語処理するにはちょっとやっかいな表現。言いにくいことを書くときに使うので、著者の心理を表していることが多くておもしろそう。 データ 特に使う予定もなく適当に収集していたツイートデータを利用。2014年1月~3月のツイートの中から (ry を含む9921

    (ry - skozawa's blog
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • https://alaginrc.nict.go.jp/rasc/

  • ナップサック問題として複数文書要約を解くを試す - Negative/Positive Thinking

    はじめに 複数文書要約をナップサック問題として解く、という話を聴いて、簡単に試せそうなのでやってみる。 手法 西川ら「冗長性制約付きナップサック問題に基づく複数文書要約モデル」 https://www.jstage.jst.go.jp/article/jnlp/20/4/20_585/_pdf 上記の論文中で紹介されている「動的計画ナップサックアルゴリズム」を参考に。 (論文で提案されている手法ではないことに注意) コード #include <iostream> #include <vector> #include <map> #include <sstream> class KPSummary { // T[i][k] := 文iまでで最大要約長がkのときの最適解値 // U[i][k] := 経路復元用(文iを利用したかどうか) std::vector< std::vector<int

    ナップサック問題として複数文書要約を解くを試す - Negative/Positive Thinking
  • 自然言語処理の独習に向かない教科書 - 武蔵野日記

    午前中は共同研究のSkypeミーティング、なのだがこちらの音声が送れないという謎の不具合で20分ほどロス。前回までとお互いハードウェアもソフトウェアも変えていないはずなのだが……。こちらを再起動してSkypeを最新版に更新したらつなげるようになった。謎。 昼過ぎに会計処理。使い切らないといけない予算は全部消化したのだが、新年度の学生数が確定したら必要な機材を揃えておかないと。 夕方は研究室で機械翻訳の話をしたり。先日届いた「機械翻訳」を渡したりする。出版直後は品薄だったようだが、今は普通に買える。 機械翻訳 (自然言語処理シリーズ) 作者: 渡辺太郎,今村賢治,賀沢秀人,Graham Neubig,中澤敏明,奥村学出版社/メーカー: コロナ社発売日: 2014/01/21メディア: 単行この商品を含むブログ (7件) を見るまだ詳しく読んでいないが、チラ見した範囲では相当よく書けているの

    自然言語処理の独習に向かない教科書 - 武蔵野日記
  • ゼロ照応解析について - あしたからがんばる ―椀屋本舗

    昨日先輩の公聴会に行って、ゼロ照応解析の話を聞いたのでいくつか思ったことを。 まずゼロ照応解析とは、述語項構造における省略された必須の格を復元したもの。例えば、 彼はクラシックが好きです。 昨日も聞きました。 の例だと、後者の”聞きました”のガ格(主格のようなもの)は一文前の”彼”になる。この場合、後者の”聞きました”のガ格にゼロ代名詞(つまり必須格の省略)があると見なし、そのゼロ代名詞が一文前の”彼”を照応しているという解釈をする。つまり、 彼は クラシックが 好きです(ガ格:クラシック)。 昨日も 聞きました(ガ格:φ1, ヲ格:φ2, 時間:昨日)。 φ1=彼, φ2=クラシック というような解釈になる。昨日の話はこのゼロ照応に、外界照応(文書内に照応先がなく、外界の何かを照応しているような場合)で著者、読者を指す場合を導入するという話だった。詳しく知りたい場合は以下を参照されると良

    ゼロ照応解析について - あしたからがんばる ―椀屋本舗
  • トピックモデルシリーズ 1 概要

    せっかく区切りがいいところまで勉強したのにoutputしないと忘れそうなので、メモを兼ねてしばらくトピックモデルについて記事を書きます。JAGSで実行したところ、そこそこ速いし収束もしました。しかしほとんど意味をなさないような幅広い推定結果になってしまいましたのでStanを使うことにしました。はじめにStanで実装するメリット・デメリットについて簡単に触れたいと思います。 メリット ・実装がラク。LDAでも30行ぐらい。 ・ややこしい推論部分は一切実装しなくてOK。全部StanのHMCサンプリングにお任せ。 ・モデルの拡張が簡単。 デメリット ・計算が遅い。文書x単語種類が1000x1500・総単語数12000のケースでは トピック数が20, iter=1000で9時間, iter=10000で35時間でした。Stanのmulti-threading対応待ち。 ・データが少ないと収束しない

  • ASPEC | 科学技術情報プラットフォーム

    ASPEC ( Asian Scientific Paper Excerpt Corpus ) Notice: ASPEC data can be used during the fiscal year (April 1 to March 31) by applying on an annual basis. You can also continue to use the data by submitting an application to the contact email address at least one month before the end of the fiscal year. Now, on April 1, 2021, the Terms of Use will be revised to simplify the application process. I

  • PPDB:Japanese - 日本語言い換えデータベース

    The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日語の言い換えデータ集です。 ダウンロード 最新版:PPDB:Japanese 0.0.1 仕様情報 一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。 翻訳 さ れ た ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報 以下の情報をご利用ください。 水上 雅博,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲. 日語言い換えデータベースの構築と

  • テキストアノテーションツール brat がすごい件 | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    テキストアノテーションツール brat がすごい件 | 関口宏司のLuceneブログ
  • 自動要約の研究動向 - 蝉々亭

    あけましておめでとうございます.もう1月も終わりですが,ようやく年を越してしまった課題を終わらせつつあります. 昨年の9月,11月にそれぞれ情報処理学会第213回自然言語処理研究会と人工知能学会第91回人工知能問題研究会にて機会をいただき,自動要約に関する最近の研究動向についてお話してきました.ありがたいことに,資料を公開して欲しい,との声をいくつか頂戴しましたので,内容を整理してここに掲載しておきたいと思います. Automatic summarization from Hitoshi NISHIKAWA 今年の言語処理学会第20回年次大会では,東京工業大学の高村先生が自動要約に関するチュートリアルをしてくださいます.言語処理学会第20回年次大会は絶賛事前参加受付中です.

    自動要約の研究動向 - 蝉々亭
  • 機械翻訳

    コロナ社より出版している「機械翻訳」のサポートサイトです。コメント等、 tarow@google.com までお願い致します。 二刷出ました。訂正のページを大幅に更新しました。HMMアライメントモデルに訂正があります。2014/1/22 発刊しました。ガイドのページを作成しました。どこから読めばいいのか迷った場合は、参考にしてください。日語の資料を更新しました。2014/1/下旬 発刊予定。訂正のページを更新。 1 機械翻訳 1.1 歴史 1.2 知識に基づく機械翻訳 1.3 用例に基づく機械翻訳 1.4 統計的機械翻訳 1.5 まとめ 2 機械翻訳の評価 2.1 機械翻訳を評価するとは 2.2 主観評価 2.3 自動評価 2.4 評価結果に基づく差分の検出 2.5 まとめ 3 言語モデル 3.1 n-gramモデルの基礎 3.2 n-gramモデルの平滑化 3.3 言語モデルの評価 3

    機械翻訳
  • 自然言語処理分野におけるディープラーニングの現状