[B! NLP] hide_o_55のブックマーク

多言語Universal Sentence Encoderを使う - Qiita

はじめにこの記事では、Tensorflow Hubに公開されている多言語Universal Sentence Encoder を試してみます。 Universal Sentence Encoderとは Transf ormerを自然言語処理の様々なデータセットを使ってマルチタスク学習させて得られた文表現ベクトルのエンコーダーです。今回使うのは多言語バージョンで、英語、フランス語、ドイツ語、スペイン語、イタリア語、中国語、韓国語、日本語のタスクで学習されたものです。文の類似度の可視化いくつかの文章を入力して文表現ベクトルを作成し、互いに内積を取ることで各入力文がどれくらい近いかを測ります。結果はヒートマップで可視化します。スクリプト Googleが公開しているColabを参考にしたコードです。実行した時にmatplotlibとseabornの文字化けが発生する場合があります。そのとき

hide_o_55 2019/05/01

NLP

リンク

Predecessorを高速に解くデータ構造: Y-Fast Trie - Qiita

整数は0と1からなる文字列だよ派です（計算機モデルとしてWord-RAMを仮定）．この記事は文字列アルゴリズム Advent Calendar 2017 17日目の記事です． vEB木と並んで高速にpredecessorを解くデータ構造y-fast trie1を紹介します. 文字列のキーワード索引などでよく利用されるトライ構造(Trie)で整数集合を管理する面白いデータ構造です． Predecessor Dictionary Probl em 全体集合$U = \{ 0, \ldots, u-1 \}$の部分集合$S \subseteq U$に対して，以下のクエリをサポートするデータ構造をpredecessor dictionaryといいます． $\mathit{Predecessor(x)}$: $x$以下の$S$の要素で一番大きいものを返す． $\mathit{Successor(x)

hide_o_55 2017/12/19

NLP

リンク

Seq2Seq まとめ - higepon blog

以前作った Seq2Seq を利用した chatbot はゆるやかに改良中なのだが、進捗はあまり良くない。学習の待ち時間は長く暇だし、コード自体も拡張性が低い。そういうわけで最新の Tensorflow のバージョンで書き直そうと思って作業を始めた。しかし深掘りしていくと Seq2Seq の詳細を分かっていなかったことが発覚したのでここにまとめる。間違いを見つけたらコメントか @higepon まで。 Seq2Seq のすべてを解説するのではなく、Tensoflow/nmt/README.md のチュートリアルをベースにする。読んだだけでは、理解できなかった部分を補っていく形で進める。必要とされる前提知識 DNN の基礎。構造、training、 loss とかそういう話。back prop は別に理解できなくても可。 RNN の基礎。RNN が時系列の扱いに向いているとか。RNN の構

hide_o_55 2017/12/12

nlp

リンク

文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)

前置きというか概要今年のEM NLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日本語のコーパス(livedoor ニュースコーパス)で検証しました。 20171114追記 fasttextベースのSCDVによるテキスト分類精度を追記しました。 SCDVのモチベーション (https://dheeraj7596.github.io/SDV/) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されています。大正義。 https://arxiv.org/pdf/1612.06778.pdf HTMLで読みたい方はこちら。https://www.arxiv-vanity.com/papers/1612.06778/ これを読んでいる皆様に、「どうにかして文章のベクトルが欲しい

hide_o_55 2017/11/13

NLP

リンク

Google、音声認識システム訓練用データセットをオープンソースで提供

Googleが、クラウドソーシングで集めた6万5000件の短い英単語の音声録音のデータセット「Speech Commands Dataset」をオープンソースで公開した。Mozillaも年内の1万時間分のデータ公開を目指している。米Googleは8月24日（現地時間）、音声認識機能搭載アプリ開発向けの基本的な音声命令のデータセット「Speech Commands Dataset」をオープンソースで公開したと発表した。公式ブログ内のリンクをクリックすると圧縮ファイルをダウンロードできる。 Speech Commands Datasetは、同社の機械学習ライブラリ「TensorFlow」を手掛けるチームと、人工知能（AI）向けハードウェアキット提供プロジェクト「AIY（Artificial Intelligence Yourself） Projects」チームが共同で開発したもの。データは

hide_o_55 2017/08/28

リンク

Deep Learning for NLP Best Practices

Deep Learning for NLP Best Practices Neural networks are widely used in NLP, but many details such as task or domain-specific considerations are left to the practitioner. This post collects best practices that are relevant for most tasks in NLP. This post gives an overview of best practices relevant for most tasks in natural language processing. Update July 26, 2017: For additional context, the Ha

hide_o_55 2017/07/26

リンク

（調査）自然言語文（和文や英文）の構文解析・依存解析・照応解析、固有表現抽出をディープラーニングで行う手法 - Qiita

Deep Learning で行う自然言語文の文構造解析構文解析器（Parser）を使わずに、深層ニューラルネットワークを用いて、英文や和文の文章を、木構造の構文解析グラフに変換する手法複数の文にまたがる文章で、後続の文に出現する指示代名詞が、前のどの文のどの名詞を指すのかを解析する照応解析を深層ニューラルネットワークで行う手法が、提案されています。これら、構文解析や依存解析、照応解析を深層ニューラルネットワークモデルで行う研究は、あまり、主題的に取り上げられていない印象を受けます。そこで本記事では、これらの論文を取り上げて、深層ニューラルネットワークモデルのトポロジー構造とパフォーマンスの検証結果を紹介していきます。さらに、固有表現抽出を深層NN　で行う手法や、文章で記述されている

hide_o_55 2017/07/18

NLP

リンク

GitHub - tensorflow/nmt: TensorFlow Neural Machine Translation Tutorial

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

hide_o_55 2017/07/14

リンク

プレスリリース | ニューラル機械翻訳で音声翻訳アプリVoiceTraが更なる高精度化を実現 | NICT-情報通信研究機構

日・英、双方向の話し言葉の翻訳を対象として、ニューラル機械翻訳を開発従来技術（統計翻訳）に比べ大幅に高い9割前後の翻訳精度を達成多言語音声翻訳アプリVoiceTraにニューラル機械翻訳技術を組み込んで公開

hide_o_55 2017/07/03

NLP

リンク

自然言語におけるCNNの攻勢：QRNNにせまる

12/13のarXivTimes輪講では、CNNの自然言語への適用としてQRNNの論文をピックアップしました。また、前回の分散表現の流れで、グラフの埋め込み表現の論文も扱いました。 QUASI-RECURRENT NEURAL NETWORKS

hide_o_55 2017/04/25

nlp

リンク

自然言語処理における前処理の種類とその威力 - Qiita

自然言語処理に前処理は不可欠です。テキストは文字の羅列であり構造化されていないため、そのままでは処理するのが難しいです。特にWebテキストの中には HTMLタグや JavaScript のコードといったノイズが含まれています。このようなノイズは前処理して取り除かなければ期待する結果は得られないでしょう。出典: Deep learning for computational biology 本記事では自然言語処理における前処理の種類とその威力について説明します。説明順序としては、はじめに前処理の種類を説明します。各前処理については、1.どんな処理なのか、2.なぜその処理をするのか、3.実装方法(なるべく) という観点から説明します。種類について説明した後、前処理の威力を測るために前処理をした場合としなかった場合での文書分類の結果を比較します。前処理の種類と実装この節では以下に示す5つ

hide_o_55 2017/04/17

タスクにもよるけど、タグは除去するだけじゃなくて、文を解析する際のメタ情報(見出しか否かとか)として活用することもあるよね

NLP

リンク

Take control of your content with ReadablePro

Our Readability Scoring, Error Detection, and Style Checking Help You Take Control Of Your Content Readable gives you best-in-class text analysis and actionable insights to bring your audience closer. Sign Up Today or Try Readable Free Step 1: Import Readable can analyse anything - a Word document or PDF, a web page, or an entire website. You can even send us text through our API. Step 2: Analyse

hide_o_55 2017/04/07

NLP

リンク

Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita

少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。サブワードニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が

hide_o_55 2017/04/07

NLP

リンク

Amazon.co.jp: 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ): 坪井祐太, 海野裕也, 鈴木潤: 本

hide_o_55 2017/03/28

nlp

リンク

ポエム判別器 - Qiita

Qiita初投稿です。よろしくお願いします。 Qiitaは主に読む方で使わせていただいているんですが、統計ヤクザとか見たことがあるので、正直コメント貰っても返すの怖いし（twitterで受けつけます）、Qiitaはいいかなって思っていました。しかし、今回はQiitaそのものを評価の対象とするので、Qiitaに投稿したいと思います。 Qiitaでは、主観や感情が入り乱れる投稿は嫌われる傾向があり、負のイメージを持ってポエムと言われることがあります。それを機械学習で分類していれければいいね、ということで、やってきます。手法選択考えられるメソッド Bag of Wordsなどでlogistic-regression Bag of wordsなどでsvm Bag of wordsなどでxgboost doc2vec, fasttextなどのエンベッディングでテキスト分類 Reccurent

hide_o_55 2017/03/27

NLP

リンク

dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

hide_o_55 2017/03/17

NLP

リンク

258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料

hide_o_55 2017/03/06

nlp

リンク

教師なしRNNによる連続した不完全情報（主にテキスト）の補完 - にほんごのれんしゅう

教師なしRNNによる連続した不完全情報（主にテキスト）の補完背景 Google（や、過去の私のブログの投稿）などで低解像度の映像を高解像度化する方法は、GANを使うことでわりとうまくいきました。テキストにも同じような問題が適応できるのかって思うことがあります。RNNはすでに記述されている文字をヒントとして次の文字を予想することができます。その特性を利用して、情報が失われたテキストから復元を試みる例を示します。 (また、戦時中の戦艦に乗っていた搭乗員の劣化した手記から情報を復元したいという思いがあります。手記の海水に沈み腐敗が進んでいたり、筆記が乱れていて解析が困難であったりという点を補完できれば良いと思います。彼らの思い、可能な限り現代に蘇らせたいと思います。) 先行研究今回は見当たらない（ほんとに存在しないんだったら、論文出したい）手法 RNNで欠落した連続する情報を周辺の単語

hide_o_55 2017/03/06

NLP

リンク

fastTextの学習済みモデルを公開しました - Qiita

fastTextの学習済みモデルを公開しました。以下から学習済みモデルをダウンロードすることができます: Download Word Vectors Download Word Vectors(NEologd) 埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。 awesome-embedding-models Motivation 以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。いますぐ使える単語埋め込みベクトルのリストただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。 How to make fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い

hide_o_55 2017/01/26

nlp

リンク

快適度推定に基づく用例ベース対話システム

In dialogue systems, dialogue modeling is one of the most important factors contributing to user satisfaction. Especially in example-based dialogue modeling (EBDM), effective methods for dialog example databases and selecting response utterances from examples improve dialogue quality. Conventional EBDM-based systems use example database consisting of pair of user query and system response. However

hide_o_55 2016/12/27

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

NLPに関するhide_o_55のブックマーク (210)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス