タグ

NLPとword2vecに関するtnalのブックマーク (10)

  • 日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク

    最終更新日:2023年6月12日 R&D部の榊です。 当社のR&D部では,研究開発上で利用する様々なリソースを部内で共有しています。 今回、そのうちの一つである単語分散表現モデルを社外の方にも利用可能な形で配布することにしました。 なので、それについてご説明したいと思います。 なお、最近の日の自然言語処理界隈では、文分散表現モデルであるBERTの日語を含む多言語モデルが公開になったばかりなので、日語の単語分散表現モデルの配布は大変今更感があるなあ・・・と思ったりもしています。 ですが、日語を対象とした文・単語の分散表現共に、配布されているのはWikipediaを学習コーパスとしたものが殆どです。 なので、WikipediaではカバーしきれないSNSやWeb上の文書を学習コーパスとした分散表現のモデルを公開することは一定の価値があると考えています。 言語資源に関しては、2019年6

    日本語大規模SNS+Webコーパスによる単語分散表現モデルの公開 : hottoSNS-w2vの配布|#ホットリンク
  • Deep-learning-free Text and Sentence Embedding, Part 1

    Deep-learning-free Text and Sentence Embedding, Part 1 Word embeddings (see my old post1 and post2) capture the idea that one can express “meaning” of words using a vector, so that the cosine of the angle between the vectors captures semantic similarity. (“Cosine similarity” property.) Sentence embeddings and text embeddings try to achieve something similar: use a fixed-dimensional vector to repre

  • Deep Learning for NLP: Advancements & Trends

    Over the past few years, Deep Learning (DL) architectures and algorithms have made impressive advances in fields such as image recognition and speech processing. Their application to Natural Language Processing (NLP) was less impressive at first, but has now proven to make significant contributions, yielding state-of-the-art results for some common NLP tasks. Named entity recognition (NER), part o

    Deep Learning for NLP: Advancements & Trends
  • サブカルのためのword2vec | BLOG - DeNA Engineering

    はじめに AIシステム部AI研究開発グループ アルバイトの五十嵐です。( @bonprosoft, ポートフォリオ:http://vbcpp.net/about/ ) 現在、東北大学大学院の修士1年で、大学院では(自然言語ではなく)高速な文字列処理アルゴリズムに関する研究を行っています。 私は2017年9月上旬から3週間ほど、アルバイト兼インターンとしてハッカドールチーム内のNLPのタスクに取り組んでいました。 その後はアルバイトとして、期間中にできなかった追加実験と実際の製品への適用に取り組んでいます。 取り組んだタスク 突然ですが、みなさま、ハッカドールはインストールされていますか? ハッカドールは、主にサブカルチャーに関する記事に特化した、ニュースアプリケーションです。 アプリケーション内のユーザーのクリックや「ホシイ/イラナイ」などのアクションを通して、ハッカドールがユーザーの好み

    サブカルのためのword2vec | BLOG - DeNA Engineering
  • EMNLP2014読み会で単語の表現学習と語義曖昧性解消を同時に解く論文を紹介しました

    先週の土曜日にPFIで行ったEMNLP2014読み会で、Skip-gramモデル(word2vec)と語義曖昧性解消を同時に解く論文の紹介をしました。 発表スライドはこちら。 単語の表現学習と語義曖昧性解消を同時に解く話は、もう一つ論文がありましたが、なんだかいまいちだったのでこちらになりました。 要点だけ整理します。 Skip-gramモデルは、単語に対するベクトル表現を学習する手法として注目を集めています。 このモデルは、ある単語の出現が周囲の出現単語に影響を与えるため、中心単語のベクトルと周囲の単語のベクトル(word2vecの実装では両者は別のベクトルとして区別します)の内積のexpに比例する確率で、周辺単語が決定されるというモデルを置きます(詳細は以前のスライド参照)。 実データを使って、対数尤度が最大になるようにベクトルを学習します。 ここまでがSkip-gramでした。 この

  • sentence2vec 動かした - laughingのブログ

    paragraph vector の実装が Qiita で紹介されていたので,ホイホイと動かしてみたという話 動くか動かないかというところを試しただけで,分析はまた今度 参考 【自然言語処理 NLPword2vec の次は、Paragraph2vec (Mikolov氏論文)~ Google発の実装ソース・コード公開 未定なので、第三者によるGithubアップ済み 実装コード を試してみる - Qiita 準備 sentence2vec clone する python apt-get する scipy と six と python-mecab と cython も corpus 適当なのを作る 情報学研究データリポジトリ ニコニコデータセット 今回は nii のニコニコ動画コメント等データを適当に使った 前処理 ニコニコ動画コメント等データを形態素解析する 下記のスクリプトで pytho

    sentence2vec 動かした - laughingのブログ
  • 深層学習についてこの夏勉強してみたくなった - 武蔵野日記

    午前2時半に起きて授業の資料を作成。育児支援休暇で1回授業を休講にしたので、その補講があるのだった。 今回いちばんホラーな点は、2限(10:30スタート)に授業があるのに当日の午前2時半で資料が1ページもできていないことで、しかも今回全く新規の内容を話す回にしていたことであった。最近あまり夢を見なくなったのだが、数カ月に1回見る悪夢は、翌日にいくつか授業をしないといけないのに、準備が全く終わっておらず、残り時間を考えると絶対全部間に合わない、というものである。それくらい、授業の準備というものにはプレッシャーがある。(90分、全く準備なしに、教えなければならない内容が決まっている授業を教えるのは難しい) とはいうものの、なんとか4時間くらいで40ページ弱のスライドを作成し、一安心。事前に頭の中では考えていたので、全く準備がないわけではなかったのも幸いしたが、こういう綱渡りは何度もやりたくない

    深層学習についてこの夏勉強してみたくなった - 武蔵野日記
  • Statistical Semantics入門の発表をしました

    先週のPFIセミナーで、Statistical Semantics入門という発表をしました。 主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。 あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。 当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたw ところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。 基的に私見ですが。 私自身は、単

  • 自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

    概要 この記事は自然言語処理という分野の最新手法word2vec を利用して誰でも遊べるようにするための手順を説明するものです。 word2vecを利用すると意味の計算が実現できます。 例えば"king"から"man"を引いて"woman"を足すと"queen"が出てきたり、 "東京"から"日"を引いて"フランス"を足すと"パリ"が出てくるという面白い手法です。 自然言語処理とは人間が日常的に用いる自然言語をコンピュータに処理させ、 翻訳や要約、文字入力支援や質問応答システムを作るなどに活用されている分野です。 自然言語処理と言うと耳慣れない言葉かもしれませんが、 実は検索や推薦などで私たちが日常的に利用しているなじみ深い技術でもあります。 自然言語処理の適用範囲や要素技術は幅広いのですが、 その中でもword2vecの特色は、 冒頭でも挙げたように「意味の計算」が出来ることです。 これ

    自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • 1