2016/03/17にPFIセミナーで話したスライドです。子供の言語獲得に関する非常に基本的な話と、関係しそうな機械学習の技術を紹介しました。素人なりのまとめなので、間違いなどご指摘いただけると助かります。
こんにちは。ウェブアプリケーションエンジニアのid:syou6162です。 はてな社内で機械学習や自然言語処理に興味のあるエンジニアが集まる機械学習サブ会という技術グループがあるのですが、その機械学習サブ会が主催で言語処理学会第23回年次大会(NLP2017)と第9回データ工学と情報マネジメントに関するフォーラム(DEIM2017)の論文読み会を行ないました。このエントリでは、その中でも特に面白かった論文を簡単にレポートしていきたいと思います。なお、論文PDFは各学会ページで公開されているものを参照しています。 ニュース制作に役立つtweetの自動抽出手法 疑似データの事前学習に基づくEncoder-decoder型日本語崩れ表記正規化 データ拡張による感情分析のアスペクト推定 文体の類似度を考慮したオンライン小説推薦手法の提案 機械学習を用いた航空会社の業務支援システムの開発 このユーザ
word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する 図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したもの ただし、fasttextにはsubwordという仕組みが入っている 図2. softmaxで共起確率を計算する あそんでみよう 2017年2~3月のTwitterのデータ
こんにちは、スマートニュースの徳永です。深層学習業界はGANだとか深層強化学習だとかで盛り上がっていますが、今日は淡々と、ニューラルネットワークの量子化の話をします。 TL;DR パラメータだけを量子化するのであれば、ほぼ精度を落とさずに、パラメータのデータ容量は1/16程度にまで削減できる パラメータ、アクティベーション、勾配のすべてを量子化し、推論だけでなく学習までもビット演算だけで実現する研究が進んできている 現在は深層学習 = GPU必須というぐらいの勢いがあるけど、量子化の研究が進むと、今後はどうなるかわからないよ はじめに 情報理論における量子化とは、アナログな量を離散的な値で近似的に表現することを指しますが、本稿における量子化は厳密に言うとちょっと意味が違い、十分な(=32bitもしくは16bit)精度で表現されていた量を、ずっと少ないビット数で表現することを言います。 ニュ
キーワードマッチングを超えた知識を利用する価値 人間間の会話では"Twitter"や"Facebook"がSNSだなと分かって会話ができたり、"ヤマハ"と言われても前後の文脈で"ヤマハ"がバイクの"ヤマハ"かピアノの"ヤマハ"か分かります。 これは単語の背景に関連する知識情報を利用できているからです。 この単語を知識情報と繋げる手法として近年の自然言語処理ではエンティティリンキングという手法がよく用いられています。 コードを使ってすぐに確認したい方は下記でインストールしてください。 コード: https://github.com/SnowMasaya/WikiPedia_Entity_Vector_Get_Similarity_word 必要なデータ: 分析したいデータ Wikificatation 日本語 Wikipedia エンティティベクトル ユースケース これを実際に使用する場合に
先月のとある勉強会で使ったスライドを今更ながら貼ります。 そこそこの「seq2seqやAttentionほどは脚光を浴びていない、RNNの基礎部分の改良や知見」を載せることを趣旨にしています。 口頭のみでの説明も多かったり、読み込みが浅かったり、量重視だったりして、スライドの各説明は特に詳しくないです。まだまだ十分に検証されていないことや納得しきれない(論文著者の)言明も多々ありますので、読む際は、ふわふわと話半分に小耳に挟むくらいがちょうどいっか〜と思って読んでください。 新たなRNNと自然言語処理 from hytae 需要と質はさておき英語版もあります。 Recent Progress in RNN and NLP from hytae
(5/29 追記:Deep Learning のGoogleグループコミュニティを追加) (6/8 追記:松尾研究室の勉強会ページを追加) (6/13 追記:neural language notesを追加) はじめまして。@aonotas(あおのたす)です。 Deep Learningと自然言語処理に興味があります。 好きなフレームワークはChainerです。 さて、Deep Learningが自然言語処理のタスクでも応用されています。 ACLやEMNLPなど国際会議でもタイトルに「Neural」が入ったものが多いですが、arxivにも査読前の論文がよくアップロードされています。 (スピードが早くて追いつくの大変ですよねorz) そこで最新のDeep Learningの論文の集め方を紹介したいと思います。(あくまで私個人の方法です。皆さんどうしてるか教えてもらえると嬉しいです。) 面白い
米Googleは5月12日(現地時間)、機械学習システム「TensorFlow」に統合されたニューラルネットワークフレームワーク「SyntaxNet」をオープンソースで公開したと発表した。GitHubで公開されている。 自然言語理解(NLU)システムの基礎を提供するものという。SyntaxNetには、新たなモデルに学習させるのに必要なすべてのコードと、英語の文章の構文解析のためにGoogleが開発した英文解析ツールの「Parsey McParseface」が含まれる。 Parsey McParsefaceは、言語構造解析方法を学習する強力な機械学習アルゴリズム上に構築されており、文章内の各ワードの機能的役割(動詞、形容詞など)を解析できるという。Parsey McParsefaceは世界で最も正確な構文解析ツールだとGoogleは説明する。 コンピュータにとって、人間の話す自然言語はあまり
先日、自然言語処理の講演などをしていたときに、そもそも私なんかが話すよりも公開されているチュートリアルスライドを集めたほうが有用なんではないかと思い立って、これから自然言語処理を学びたい人や、ちょっと新しい分野を知りたい人向けに、日本語で読めるチュートリアルスライドを分野別にまとめてみました。 主に、学会のチュートリアルや招待講演、それから研究者の方のWebページなどを参照しながら作りました。 自然言語処理全般系の資料や、少し境界的なテーマは入っていません。 また、ぱっと読めるスライドだけにしています。 幾つか手前味噌な資料も載せてます・・。 頑張って集めてみましたが、思ったほど集まりませんでした。 作っていてわかったのですが、意外とスライドを公開している人は少ないようです。 埋もれてしまうのはもったいないですね。 いずれ、英語で読めるスライドを集めてみようと思います。 そっちはそっちで、
何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で本題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す
ディープラーニングは、人間の脳の中のAI分野の若手経営者も注目するニューロンとシナプスの回路をコンピューターの電子回路で真似て、それを何層にも重ねた手法。この手法が思いの外、成果を上げているので、人工知能が急に進化し始めたことで注目が集まっている。英誌エコノミストも最近の号で人工知能を特集するなど、リクルートがAI研究所を開設するなど、ビジネスマンの間でも人工知能は今、ちょっとしたブームだ。 しかしディープラーニングのように人間の脳を模倣しなくても、コンピューターを賢くさせる手法はほかにもある。例えば「トピックモデリング」。トピックモデリングは、多数の文書を読み込むことで傾向をつかみ、文書を幾つかのカテゴリーに自動分類する手法だ。このトピックモデリングも、近年急速に進歩してきているといわれる。トピックモデリングとはどんな技術なのか。最近ではどのような研究が最先端なのか。第一人者のコロンビア
2018年4月25日をもちまして、 『CodeIQ』のプログラミング腕試しサービス、年収確約スカウトサービスは、 ITエンジニアのための年収確約スカウトサービス『moffers by CodeIQ』https://moffers.jp/ へ一本化いたしました。 これまで多くのITエンジニアの方に『CodeIQ』をご利用いただきまして、 改めて心より深く御礼申し上げます。 また、エンジニアのためのWebマガジン「CodeIQ MAGAZINE」は、 リクナビNEXTジャーナル( https://next.rikunabi.com/journal/ )に一部の記事の移行を予定しております。 今後は『moffers by CodeIQ』にて、 ITエンジニアの皆様のより良い転職をサポートするために、より一層努めてまいりますので、 引き続きご愛顧のほど何卒よろしくお願い申し上げます。 また、Cod
Transcript 1. 大規模データから単語の 意味表現学習-word2vec ボレガラ ダヌシカ 博士(情報理工学) 英国リバープール大学計算機科学科准教授 2. 2 2005 2008~10 学部 修士 博士 助教/講師 東京大学 工学部 東京大学大学院情報理工学系 文書自動要約における 重要文順序学習 同姓同名抽出 別名抽出 属性類似性計測 関係類似性計測 評判分類の分野適応 関係抽出の分野適応 進化計算を用いたWeb 検索結果順序学習 ソーシャルネットワーク の関係予測 対話型協調 Web検索エンジン 潜在関係検索 エンジン 自己紹介 専門分野:自然言語処理, 機械学習,データマイニング 2006~07 2010~13 2010~現在 准教授 リバープール大学 深層学習 3. 今回の講演の背景 •深層学習に関する活動 •2014年9月に深層学習のチュートリアルをCyberAge
こんにちは、はてなアプリケーションエンジニアの id:skozawa です。現在は、ブックマークチーム、及び、プラットフォームチームで開発をしています。 先日リリースされたはてなブックマークの新機能「トピック」の裏側について、Hatena Enginner Seminar #4で紹介しました。 Hatena Enginner Seminar #4で紹介した資料に少し加筆・修正を加えたものを公開します。 内容 「トピック」機能は、はてなブックマーク開発ブログにもある通り、これまで何人かのエンジニアが挑戦してきましたが、実現できていませんでした。その主な要因として、 トピック生成の精度が低い トピックタイトル生成が難しい という問題があり、これらを検索技術と自然言語処理技術によって解決することによりベータリリースへとこぎつけました。 トピック生成 これまでキーワードなどを用いて記事をクラスタリ
会場 会場:京都大学 吉田キャンパス 所在地:〒606-8501 京都市左京区吉田本町 アクセスは以下のHPをご覧下さい. http://www.kyoto-u.ac.jp/ja/access/campus/ 会場案内図(PDF) 無線インターネットアクセスについて 無線LANは使用可能ですが,混雑のため繋がらない場合もあります. 無線LANの利用には eduroam と MIAKO の二通りの方法があります.無線LANは各会場で利用することができます. [eduroam] eduroam(SSID:eduroam)による無線LANが利用可能です. eduroam アカウントをお持ちで無い方は,eduroam の臨時アカウントを発行いたしますので,無線LAN使用申請書に必要事項をご記入の上,受付にてお申込みください.eduroam 参加機関所属の方は予め所属機関でeduroam のアカウン
2015/02/04 独立行政法人情報処理推進機構(IPA)は2月3日、オープンデータの連携促進を目的とした「共通語彙(い)基盤」プロジェクトの成果として、その中核となる語彙集の正式版を公開した。 行政機関がデータを公開しても、その形式がまちまちだったり、同じ意味の用語が多数存在していては、複数データの横断的な利用や、ある地域で作成したアプリを他の地域でも使う、ということが難しい。そうした状況を打開するために、IPAは経済産業省とともにデータの構造やそこで使う用語を統一させる共通語彙基盤の整備を2013年から進めてきた。 このほど正式版を公開したのは「コア語彙」と呼ばれる、行政事務に共通して使われる用語を構造化したもの。「人」「イベント」といった汎用性の高い48の「クラス用語」と、「氏名」「開催場所」といった具体的な情報を示す206の「プロパティ用語」から成る。 今後はコア語彙に加え、交通
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く