社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う予定は特にはないですが、機械学習を使うエンジニアとして知っておいて損はないし、技術的に何が変わったことにより何ができるようになって、何はまだできないのかを知ろう、というのが目的です。技術的な項目は興味ない人も多そうなので、最後に持っていきました。 Google Neural Machine Translation(GNMT)の最近の進化について できるようになったこと 定量的な評価 まだまだ難しいこと 技術的な詳細 Encoder-decoder Attention based encod
Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation Melvin Johnson, Mike Schuster, Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat melvinp,schuster,qvl,krikun,yonghui,zhifengc,nsthorat@google.com Fernanda Viégas, Martin Wattenberg, Greg Corrado, Macduff Hughes, Jeffrey Dean Abstract We propose a simple, elegant solution to use a single Neural Ma
大会発表募集 自然言語に関する理論から応用まで幅広い研究発表を募集します.とくに,言語学,教育学,心理学,認知科学など,日頃「言語処理」とは縁が薄いと感じておられる人文系の研究者の方々からの積極的な発表を期待しています. 口頭発表とポスター発表を募集します.ご自身の研究内容に適していると考えられる発表形態を選択してください. 年次大会では,「幅広い研究分野の研究者の相互交流の場を設ける」という言語処理学会の設立趣旨に鑑み,口頭発表セッションの並列度を低く抑えること,ポスター発表セッションは口頭発表セッションとは並列にしないこと,の2点に留意してプログラム編成を行ってきました.一方,発表申し込み数は年々増加し,プログラムが過密になる傾向にあります.ゆとりのあるプログラム編成のために,以下の施策をとる可能性があることをご了承下さい. 口頭発表セッションの上限を5並列とする. 口頭発表セッション
大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)と大学共同利用機関法人 人間文化研究機構 国文学研究資料館(国文研)がすごいデータを無償公開しました! 11月17日に公開されたのは、江戸時代の古典籍に書かれたくずし字の1文字ずつの字形画像データ。その数なんと8万6176件(1,521文字種)になります。 「どういうこと?」と思ってますか?どれほどすごいことか、以下のリリース情報の画像解説を見ればわかります! データは「日本古典籍字形データセット」という名称で、字形画像データのほか、文字が古典籍のどの位置に書かれているかを示す文字座標データと、原本の画像データも含まれています。このデータは二次利用を歓迎するオープンデータとして無償提供中。 例えば、古典籍から抽出された「あ」のほんの一部。「あ」にも色々な癖がある。 例えば、古典籍から抽出された「か」のほんの一部。 収録
メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。
京大の黒橋・河原研から最近出たJUMAN++をmacOSのhomebrewでinstallできるようにしました。 JUMAN++はRNNLMというディープラーニングベースの言語モデルを使っています。 こちらの記事を読んで知ったという方も多いのではないでしょうか。 qiita.com インストール方法は、現段階では後述する理由のためhomebrew-coreにはまだ入っていないので、tapを使ってください。 [2016/10/23追記] やっと本家homebrewに入ったので、tapは要らなくなりました。 [/追記] $ brew install jumanpp github github.com JUMAN++のサイト凄い JUMAN++のサイトには解析を試せるWebアプリケーションがあるのですが、それがなかなか面白いです。 このリンクに対して、 http://tulip.kuee.kyo
JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。 これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。 速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。 導入方法 前提 OS X Yosemite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。 推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。 また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr
bigdata hadoop bigdata big data security deep learning infrastructure spark ai node.js physicalweb hadoop csirt ux aws smartdevice proofreading rancher datarobot erlang tableau natural language processing ui redpen devsumi2015 oss atl java webdb bigdata hive cnn convolutional neural network machine learning ieee pepper app re:invent emr dataset data set image analysis software pepper 校正 lint datab
フロントエンドのパラダイムを参考にバックエンド開発を再考する / TypeScript による GraphQL バックエンド開発
松本研究室で開発した自然言語処理ツールの一覧です. 公開中のツール 日本語形態素解析システム ChaSen 「茶筌」 品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs 日本語係り受け解析システム CaboCha「南瓜」 汎用 テキストチャンカー/タガー YamCha SVM 学習ツール TinySVM Large margin confidence-weighted オンライン学習ツール AROW++ Latent Dirichlet Allocation 学習ツール lda 高速形態素解析器システム MeCab 高速文字列検索システム SUFARY コーパス管理・検索ツール 「茶器」 日本語述語項構造解析器 SynCha「新茶」 統計的日本語校正 Chantokun「ちゃんとくん」 英語誤り検出 NAIST Error Detection System at EDC
JavaScript: Past, Present, and Future - NDC Porto 2020
8月28日(日)〜8/30(火)、和歌山県白浜にて NLP 若手の会第11回シンポジウムを開催しました。約150人の参加者と23社のスポンサーの皆様をむかえ、今年も大盛況でした。ご参加いただいた皆様、どうもありがとうございました。 最終日には、参加者による投票に基づいて受賞者を選定し、奨励賞として4件、デモ賞として2件を閉会式にて表彰しました。本奨励賞はこれから始まる,または始まったばかりの研究を奨励することを主旨とするものであり,現時点の研究の完成度よりもアイディアの面白さおよび新規性,発展性への期待を重視しています。 受賞者 奨励賞 P11「論文のテキストと引用グラフを考慮した分散表現学習」小林雄太, 新保仁, 松本裕治(NAIST) P16「 共参照関係に基づく分散表現の共有と動的更新」小林颯介, 岡崎直観, 乾健太郎(東北大) P28「二値符号予測によるニューラルネット翻訳」小田悠
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く