第3回TokyoCL勉強会 でのLSTMについての発表資料です
ちゃお。舞い降りんだよ。 今回はLexical density (語彙密度) の話をしたいと思います。結論からいうと微妙な結果だったのであまり期待しないでください。 内容語と機能語 Lexical densityの話の前にまずざっと内容語と機能語の説明をします。 語は、大きく分けると内容語と機能語の2つの種類に分けることができます。 内容語は、その語自体で独立して意味をなす語です。品詞でいうと名詞、形容詞、動詞、副詞が該当します。 一方で機能語は、文法的な機能をもっていますが、それ自体単独では意味をはたさなくて、他の語と一緒になってはじめて意味を表します。たとえば「な」という語だけでは何を言ってるのかさっぱりわかりませんが、「かわいそうな大人」といえば「かわいそう」と「大人」を結びつける役割を果たします。品詞でいうと助詞、助動詞、接続詞、連体詞、代名詞などが該当します。 Lexical d
最適輸送問題(Wasserstein 距離)を解く方法についてのさまざまなアプローチ・アルゴリズムを紹介します。 線形計画を使った定式化の基礎からはじめて、以下の五つのアルゴリズムを紹介します。 1. ネットワークシンプレックス法 2. ハンガリアン法 3. Sinkhorn アルゴリズム 4. ニューラルネットワークによる推定 5. スライス法 このスライドは第三回 0x-seminar https://sites.google.com/view/uda-0x-seminar/home/0x03 で使用したものです。自己完結するよう心がけたのでセミナーに参加していない人にも役立つスライドになっています。 『最適輸送の理論とアルゴリズム』好評発売中! https://www.amazon.co.jp/dp/4065305144 Speakerdeck にもアップロードしました: https
ファッションを扱うサービスのために、Elasticsearchのユーザー辞書とシノニム辞書を作ったときの具体的な話
岩波データサイエンス vol.2 の発刊を記念して、刊行トークイベント「統計的自然言語処理 - ことばを扱う機械」が 3月3日 に開催されました。 岩波データサイエンス Vol.2 : 岩波データサイエンス刊行委員会 : 本 : Amazon.co.jp トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - connpass イベントの様子はニコニコ動画さんで生中継されましたが、その録画は YouTube で公開させてもらっています。 【トークイベント「統計的自然言語処理ーことばを扱う機械」(岩波データサイエンス Vol.2 刊行記念) - YouTube】 1. 挨拶と著者団トーク 2. 招待講演「本当は怖い統計的自然言語処理」(賀沢秀人; グーグル株式会社) 3. 自然言語処理についてのパネルセッション+クロージング 自然言語処理に詳
最近、畳み込みニューラルネットワークを使ったテキスト分類の実験をしていて、知見が溜まってきたのでそれについて何か記事を書こうと思っていた時に、こんな記事をみつけました。 http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp 畳み込みニューラルネットワークを自然言語処理に適用する話なのですが、この記事、個人的にわかりやすいなと思ったので、著者に許可をもらって日本語に翻訳しました。なお、この記事を読むにあたっては、ニューラルネットワークに関する基礎知識程度は必要かと思われます。 ※日本語としてよりわかりやすく自然になるように、原文を直訳していない箇所もいくつかありますのでご了承ください。翻訳の致命的なミスなどありましたら、Twitterなどで指摘いただければすみやかに修正します。 以下
最適輸送問題(Wasserstein 距離)を解く方法についてのさまざまなアプローチ・アルゴリズムを紹介します。 線形計画を使った定式化の基礎からはじめて、以下の五つのアルゴリズムを紹介します。 1. ネットワークシンプレックス法 2. ハンガリアン法 3. Sinkhorn アルゴリズム 4. ニューラルネットワークによる推定 5. スライス法 このスライドは第三回 0x-seminar https://sites.google.com/view/uda-0x-seminar/home/0x03 で使用したものです。自己完結するよう心がけたのでセミナーに参加していない人にも役立つスライドになっています。 『最適輸送の理論とアルゴリズム』好評発売中! https://www.amazon.co.jp/dp/4065305144 Speakerdeck にもアップロードしました: https
LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデルであるため、Perplexity の定義は明確です。 一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。 本記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。 例えば、トピックが { farmers, farm, food
This document summarizes recent research on applying self-attention mechanisms from Transformers to domains other than language, such as computer vision. It discusses models that use self-attention for images, including ViT, DeiT, and T2T, which apply Transformers to divided image patches. It also covers more general attention modules like the Perceiver that aims to be domain-agnostic. Finally, it
A team of neuroscientists has found new support for MIT linguist Noam Chomsky’s decades-old theory that we possess an “internal grammar” that allows us to comprehend even nonsensical phrases. A team of neuroscientists has found new support for MIT linguist Noam Chomsky’s decades-old theory that we possess an “internal grammar” that allows us to comprehend even nonsensical phrases. “One of the foun
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem... NLP コロキウム https://nlp-colloquium-jp.github.io/ で発表した際のスライドです。 論文: https://arxiv.org/abs/2205.01954 GitHub: https://github.com/joisino/wordtour 概要 単語埋め込みは現代の自然言語処理の中核技術のひとつで、文書分類や類似度測定をはじめとして、さまざまな場面で使用されていることは知っての通りです。しかし、ふつう埋め込み先は何百という高次元であり、使用する時には多くの時間やメモリを消費するうえに、高次元埋め込みを視覚的に表現できないため解釈が難しいことが問題です。そこで本研究では、【一次元】の単語
The document discusses automatic text summarization, including trends, challenges and opportunities in the field. It provides an overview of existing work on extractive and abstractive summarization techniques. Recent trends include the use of deep learning models like neural attention models and RNN-based summarizers. Challenges include the rare word problem in neural summarizers and the difficul
先日、工藤さんがJavaScript向けに作った日本語のコンパクトな分かち書きツール、TinySegmenterをJuliaに移植したTinySegmenter.jlを作りました。 もともとは、PyconJPでjanomeの話を聞いたら居ても立っても居られなくなって、簡単なTinySegmenterを移植したんですが、そしたら思いもよらぬ展開が待っていました。 [2015/10/22 23:38 追記] 計測の問題を @repeatedly さんから指摘いただいたので再計測しました。 パッケージ登録時にMITの先生からツッコミが入る JuliaのパッケージはMETADATA.jlというセントラルなレポジトリで管理されています。 ここに登録されたパッケージはPkg.add("TinySegmenter")とREPLで実行するだけでパッケージが導入できます。*1 ここに登録をしようとした時に、
こんにちは。検索編成部&研究開発チームの原島です。 クックパッドのレシピには、内部で、様々な情報が付与されています。例えば、こちらの「母直伝♪うちの茹でない塩豚」というレシピには「肉料理」という情報が付与されています。これらの情報は、クックパッドの様々なプロダクトで利用されています。 レシピに情報を付与する方法は沢山ありますが、その一つに機械学習があります。クックパッドでは、レシピが肉料理か否か、魚料理か否か、...という分類を行うことで、「肉料理」や「魚料理」などの情報をレシピに付与しています。 今日は、分類をどのように実現しているか、その裏側を紹介します。 ■ 実装フェーズ まず、分類器を実装する際に気をつけたことを紹介します。 モデルを決定する 分類を行うには、そのための機械学習のモデルを決定する必要があります。クックパッドでは、十分な精度が出るだけでなく、リファレンスが多いという点
招待講演 3/8(火) 9:30-10:30:医療分野におけるビッグデータ活用の実態と課題 講演者:石川ベンジャミン光一 氏(国立がん研究センター) 概要:医療の分野では1980年代以降に病院の業務を総合的にカバーする情報システムの開発が活発になり,その結果として現実世界での事象を電子的データとして写し取って活用することのできる範囲と粒度は大きな進歩を遂げた.また2000年代以降に入ってからは,施設単位で管理されていたデータを交換・蓄積する方法の整備が進み,大規模な医療データベースの構築とその活用に向けた気運が高まってきている.こうしたデータは医療の学問的・技術的側面における発展と同時に,社会サービスとしての医療の効率・効果と持続可能性を考えるためにも利用されている.中でもDPCデータはデータの内容と規模,収集と活用の容易さから大きな注目を集めており,本講演ではその活用の事例について紹介す
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く