最終更新日: 2017年7月3日 こんばんは!AINOW編集長のかめきちです。 先週開催された、全脳アーキテクチャ若手の会主催によるカジュアルトーク Vol20の模様をお届けしたいと思います。 今回のテーマは「自然言語処理」。 日本のAI界における永遠のテーマでしょうか… 難易度の高いこの分野の最新研究を聞くことが出来ましたので、まとめていきます。 ・イベントの詳細はコチラ https://wbawakate.connpass.com/event/48610/presentation/
最近、「機械学習」や「自然言語処理」、といったキーワードを聞くことが多くなってきていると思います。 反面、すごそうだけどなんだか難しいもの、というイメージもあるのではないかと思います。そこで、今回は「自然言語処理」の一種であるトピックモデルを取り上げ、その仕組みを紹介するとともに、その実装方法について解説していきたいと思います。 (「機械学習」の方については、以前開催した勉強会の資料がありますので、興味があればそちらもご参照ください。) トピックモデルとは トピックモデルは、確率モデルの一種になります。つまり、何かが「出現する確率」を推定しているわけです。 トピックモデルが推定しているのは、文章中の「単語が出現する確率」になります。これをうまく推定することができれば、似たような単語が出てくる文章(=似たようなモデルの文書)が把握でき、ニュース記事などのカテゴリ分類を行ったりすることができま
2. ⾃自⼰己紹介 海野 裕也 l (株)プリファードインフラストラクチャー l ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイ ニングなどの研究開発 l 画像解析とかもやります l Jubatusの開発など NLP若若⼿手の会共同委員⻑⾧長(2014-) 2 3. 宣伝:NLP若若⼿手の会(YANS) l YANSシンポジウム(9⽉月) l 若若⼿手研究者(40歳未満くらい)の若若⼿手研究者が、⾃自 ⾝身の研究を進めるための集まり l 学⽣生やエンジニアの参加も歓迎 l 今年年も合宿をやる予定です l スポンサーも募集する予定です l YANS懇(3⽉月) l ⾔言語処理理学会全国⼤大会期間中に懇親会をします l 単なる飲み会です J 3
1. The document discusses the history and recent developments in natural language processing and deep learning. It provides an overview of seminal NLP papers from the 1990s to 2010s and deep learning architectures from 2003 to present. 2. Key deep learning models discussed include neural language models, word2vec, convolutional neural networks, and LSTMs. The document also notes the increasing int
All slide content and descriptions are owned by their creators.
要点から言うと、この度試験的に自動要約サービスを公開しました。画像をクリックしてGo! こんにちは、白ヤギの自然言語処理見習い、シバタアキラです。忙しい時に余計なことを聞かされると、イラっとクルものです。「いいから要点にまとめてくれない?」とか、夫婦間でいうのはあまりオススメしませんが、職場ではよく聞かれるのではないでしょうか。戦略コンサルティング会社は「3っつで言うと」とよく言うことでも知られているように、要点をまとめてササッと話せる人を大量生産しており、実際に重要なポイントをコンサイスに表現できる人は「よく出来る」ということになるわけです。 アルゴリズムによる自動要約の研究は最近始まったものではなく、既に10年以上の研究がなされており、理論的にも体型だって論じられているようです。自然言語処理学会では、各種の問題に対してアルゴリズムの公募が行われていますが、2007/2008年にはNIS
レシピを対象とした研究・開発が近年さかんになってきています.そこでは,レシピの手順文書に対して形態素解析した結果を素材として用いることが多いですが,その準備には意外と手間がかかります.このような素材の準備は,研究・開発に依存することは少なく,共通化できる処理も多いと考えています.少しでも前準備の労力を減らし,本来の研究に打ち込める環境を提供するため,我々は本マニュアルを公開しました.これによって,レシピを対象とした研究・開発がますますさかんになっていくことを期待しています. 本マニュアルは,レシピの手順文書を入力として,単語分割結果や品詞判別結果,食材・道具などの判別結果,終止形復元結果を出力する方法を記したものです. 例えば,以下のような結果が得られます. 入力 糸蒟蒻を下茹でします。 形態素解析結果 糸/名詞/名詞-普通名詞-一般+/し 蒟蒻/名詞/名詞-普通名詞-一般+/こんにゃ
はじめに 品詞のつながりや出現頻度、学習情報から複合語らしきキーワードを自動で抽出するPerlモジュールTermExtractが公開されています。 これを利用すれば、形態素解析済みのテキストを食わせるだけでそこそこそれらしい専門用語をたくさん得ることができます。 このTermExtractは、ソースからインストールする必要があったり、EUC環境であったり形態素解析後のデータを入力に必要としたりなかなかめんどくさいです。 そこで、MeCabとTermExtractが自動で環境構築されるDockerファイルを作りました。 https://github.com/naoa/docker-termextract このDockerファイルでは、正規表現フィルタや形態素解析、コスト推定などを自動でやってくれるPerlスクリプトも自動で導入されるようになっています。 これでDockerを実行できる環境があ
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
はじめに 複数文書要約をナップサック問題として解く、という話を聴いて、簡単に試せそうなのでやってみる。 手法 西川ら「冗長性制約付きナップサック問題に基づく複数文書要約モデル」 https://www.jstage.jst.go.jp/article/jnlp/20/4/20_585/_pdf 上記の論文中で紹介されている「動的計画ナップサックアルゴリズム」を参考に。 (論文で提案されている手法ではないことに注意) コード #include <iostream> #include <vector> #include <map> #include <sstream> class KPSummary { // T[i][k] := 文iまでで最大要約長がkのときの最適解値 // U[i][k] := 経路復元用(文iを利用したかどうか) std::vector< std::vector<int
自然言語処理を学ぶ推薦書籍を紹介します。2021年03月現在、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。 (数式なし)自然言語処理の基本と技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な本(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いていない)で、Python 2 で書かれているだけでなく、すでに動かなくなったコードも多々あり、2019年時点では読まない方がいい本です。(それでもどうしても、意地でも読みたい人は、本家にある Python 3 対応
chapas-0.742.tar.gz (全ファイル, size: 1.13GB)ChaPASはフリーソフトウェアです。修正BSDライセンスに従って利用または再配布することができます。ただし、付属のモデルファイル(models以下)、解析に利用している京都大学格フレームver1.0 (resources/kucf以下)、ALAGIN文脈類似語データベース付属の確率的クラスタリングの結果データ(resources/sw以下)、大規模コーパスから得られた確率的クラスタリングの結果データ(resources/ncv以下)はこのライセンスには含まれません。 モデルファイルは、ipa品詞体系のデータで学習したものです。 確率的クラスタリングの結果データは、オリジナルから30%以上改変したものです。 chapas-models.tar.bz2 (学習済みモデルファイルのみ, size: 125MB)c
by Graham Neubig 「言語処理を研究したいけれど、ネタが思いつかない」という人は世の中にいるかと思います。 このように困っている人を助けるべく、以下の論文ネタを1,000本分考えました*。 面白そうなものがあったら、ぜひご自由に研究してください**。 翻訳別アクセス 割込における複合語構文の分析と自動評価 外国語ネット時間の効果の訳文に関する考察 発話講義のための文の自動評価と文脈の変化方法の評価 京都機械翻訳の曖昧性検証 大規模コーパスを話動画抽出文ふさわし支援システム 画像情報を対象とした文行為発表語の抽出 医薬・半教師条件対訳辞書非対話における日本語単語用辞書ANASYS推定 Web検索エンジンを用いた推論曖昧性知識の構築 解説クラスタリング辞書と構築に対する反義を考慮した類別発言 言い動詞・評価者の上位判定に着目した評価語彙いデータ基盤方法 日英統計翻訳における複数の
昨年米国で開催されたTAC 2011 RTE-7では、NECのシステムが第一位を獲得したそうです: NECのテキスト含意認識技術がNIST主催の評価タスクで第一位を獲得(2012年4月13日): プレスリリース | NEC IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features このシステムのテキスト解析にはSENNA (Semantic/syntactic Extraction using a Neural Network Architecture) というツールが利用されています。SENNAは、多層ニューラルネットに基づいて、品詞タグ付け、チャンキング、固有名抽出、意味役割ラベリング、構文解析といった様々
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く