[B! ml][nlp] incepのブックマーク

Better language models and their implications

We’ve trained a large-scale unsupervised language model which generates coherent paragraphs of text, achieves state-of-the-art performance on many language modeling benchmarks, and performs rudimentary reading comprehension, machine translation, question answering, and summarization—all without task-specific training. Our model, called GPT-2 (a successor to GPT), was trained simply to predict the

incep 2020/04/01

リンク

GitHub - THUNLP-MT/TG-Reading-List: A text generation reading list maintained by Tsinghua Natural Language Processing Group.

incep 2020/01/10

リンク

https://scikit-learn.org/stable/supervised_learning.html

incep 2019/11/12

scikit-learn で使用できる教師あり学習手法の一覧

ml
nlp

リンク

テキストの構造化を支える技術 -概要編- - Ahogrammer

最近、情報抽出、特にOpen Information Extraction（OpenIE）という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEのきっかけとなったシステムであるTextRunnerとその仕組みについて説明します。 Open Information Extractionとは？ OpenIEについて述べる前に、まずは伝統的な情報抽出について述べておきましょう。情報抽出は非構造化データであるテキストを構造化された表現に変換するタスクです*1。情報抽出で抽出される情報は関係のタプルの形(arg1, rel, arg2)で表現されます。このタプルは関係を示すフレーズ（rel）とその対象であるエンティティ（args）から成ります。一般的な処理の流れと

incep 2018/10/15

リンク

Seq2Seq まとめ - higepon blog

以前作った Seq2Seq を利用した chatbot はゆるやかに改良中なのだが、進捗はあまり良くない。学習の待ち時間は長く暇だし、コード自体も拡張性が低い。そういうわけで最新の Tensorflow のバージョンで書き直そうと思って作業を始めた。しかし深掘りしていくと Seq2Seq の詳細を分かっていなかったことが発覚したのでここにまとめる。間違いを見つけたらコメントか @higepon まで。 Seq2Seq のすべてを解説するのではなく、Tensoflow/nmt/README.md のチュートリアルをベースにする。読んだだけでは、理解できなかった部分を補っていく形で進める。必要とされる前提知識 DNN の基礎。構造、training、 loss とかそういう話。back prop は別に理解できなくても可。 RNN の基礎。RNN が時系列の扱いに向いているとか。RNN の構

incep 2017/12/10

リンク

UCI 機械学習リポジトリのデータセット一覧 | トライフィールズ

UCI machine learning repositoryで公開されているデータセットの一覧をご紹介します。英語での要約(abstract)をgoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。データセットのサンプルを探す参考にしていただければ幸いです。掲載内容は2024年07月01日の情報で、データセット数は645です。 Breast Cancer This breast cancer domain was obtained from the University Medical Centre, Institute of Oncology, Ljubljana, Yugoslavia. This is one of three domains provided by the Oncology Institute that has repeatedly appea

incep 2017/05/22

サマリのGoogle翻訳付きなので日本語キーワードで検索可．便利でありがたい

リンク

RNNを使った機械翻訳モデルで遊ぶ - もちもちしている

この記事はDeep Learning Advent Calendar 5日目の記事です．はじめに皆様，ご無沙汰にしております．olanleedです．とうとうAdvent Calendar以外でブログを更新しないダメな人間になってしましました．更新しようといろいろ考えてたのですが，学会やらジャーナルへの論文投稿などがあって，なかなか厳しいものがありました．この12月は異常なまでにAdvent CalendarとLTを入れたので，怒涛の更新になりそうです．お付き合いください．それでは本題に入りたいと思います． RNNを用いた機械翻訳 Deep Learningが様々な分野で大きな成果を出している現在，統計的機械翻訳でもRecurrent Neural Network(RNN)を活用した研究が成功を収めています．今回はRNN(LSTM)を用いた翻訳モデルの一つであるSequence

incep 2016/11/30

rnn
mt
dl
ml
nlp

リンク

Crfと素性テンプレート

4. CRF に入る前に… ● マシンラーニング界での CRF の立ち居値は何処？ ML界 Logistic Regression SVM 識別モデル Perceptron M^3N CRF Structured SVM PA Structured Perceptron MIRA HMM 識別関数構造学習ベイジアンの集う修羅の地生成モデル僕は立ち入れないので説明不可 NB ※ @echizen_tm さんのネタパクりました。

incep 2016/11/21

リンク

word2vecリンク集 - Educational NLP blog

word2vecに関する資料へのリンク集です．全く網羅的でないですが，とりあえず．中でやっている計算の資料 Word2vecの並列実行時の学習速度の改善 @chokkanorg 先生のNL研での発表資料．内部の計算をスライドで端的に説明してくれている． http://www.folgertkarsdorp.nl/word2vec-an-introduction/ 英語だが，中でどういう計算をしているのかをPythonのnumpyで表現してくれている． Improving Distributional Similarity with Lessons Learned from Word Embeddings @Bollegala 先生からおすすめされた論文．「なぜc+wにすると良くなるのかについては（この論文）のSec 3.3参照して下さい．」だそうです． Google Code Archi

incep 2015/10/30

リンク

最大エントロピーモデルについて（CRF への前振り） - アスペ日記

最大エントロピーモデルについての解説。既存の資料としては、A Simple Introduction to Maximum Entropy Models for Natural Language Processing や「言語処理のための機械学習入門」（通称高村本）が詳しい。記事中でもその用語を適宜使ったり、内容を引用したりする。ここでは、できるだけ直感的に理解できるような説明を目指す。まず、最大エントロピーモデルとは何か。最大エントロピーモデルは、分類を行う時に使われる。たとえば、あるレビューに出てきた単語（good とか bad とか）から、そのレビューがポジティブなのかネガティブなのか分類する、というようなもの。この分類先のことをクラスと呼ぶ。最大エントロピーモデルは識別モデルの一種。識別モデルの他には生成モデルというものもある。これらの違いは、レビューの例で言う

incep 2015/08/25

ml
nlp

リンク

https://scikit-learn.org/stable/model_persistence.html

incep 2015/08/14

リンク

https://scikit-learn.org/stable/modules/svm.html

incep 2015/08/12

リンク

線形SVM - 人工知能に関する断創録

下巻に入って7章のサポートベクトルマシン（Support Vector Machine: SVM）を実装してみます。SVMに関しては、有名なSVMのライブラリ（libsvm）を使ったことがあるだけで、アルゴリズム詳細はPRMLで初めて学習しました。なので変なことを書いていたらコメント欄で指摘してもらえると助かります。まずは、一番簡単な線形SVMを実装してみます。今までと同様に直線（超平面）でデータが完全に分離できる場合です。PRMLの7章には特に説明がありませんが、カーネル関数に下の線形カーネル（データのただの内積）を用いた場合に相当するようです。このカーネル関数を多項カーネルやガウシアンカーネルに変更すると線形分離不可能なデータも分類できるようになるとのこと。非線形SVMは次回ためしてみます。まず、SVMの識別関数は、式（7.1）で表せます。今までと違ってバイアスパラメータをまとめ

incep 2015/06/25

リンク

ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類（Text Classification, Text Categorization）の技法たちを試していきたいと思います。テキスト分類は文書分類（Document Classification）という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。テキスト分類とはテキスト分類とは、与えられた文書（Webページとか）をあらかじめ与えられたいくつかのカテゴリ（クラス）に自動分類するタス

incep 2014/09/17

ml
nlp

リンク

スレットスコア - Wikipedia

スレットスコア (Threat Score, TS) とは、稀な現象・事象を2値のカテゴリで予報・推定する手法についてその性能を評価する指標の1つである。天気予報などの分野で主に用いられ、Critical Success Index (CSI, 重要成功指数) と呼ばれることもある。解説[編集] 例えば年間360日以上晴れている地域では、人工衛星やスーパーコンピューターなどを用いなくても常に晴れの予報を出しておけば適中率は99%近くなる。しかしこの場合に価値があるのは、この地域では稀な現象である降雨を予報し適中することであるため、適中率という指標では予報手法の性能や価値を評価できない。このような場合、稀な事象を適中させる性能を評価する指標の1つとしてスレットスコアが用いられる。スレットスコアは、情報検索技術の性能評価に用いられるF値 (F-score, F-measure) と類似した

incep 2014/05/29

適合率，再現率，正解率およびF値とThreat Scoreの関係が述べられている．Threat Scoreは天気予報に用いられる．この記事は，情報抽出関連の各種指標についての数種ある記事のなかで，僕にとっては特にわかりやすい．

リンク

scikit.learn手法徹底比較！ SVM編 - Risky Dune

問題設定や細かい実験手法は下のページを参照. scikit.learn手法徹底比較！イントロダクション今回は言わずと知れたSVM(サポートベクターマシン)を試す. 訓練データ数を増やしていったときに, 手書き文字の分類性能がどのように推移していくかを調べる. SVMの詳細な解説は別の文献を引いて欲しい. PRMLを読んでもいいしこのスライドは結構わかりやすい. 概略だけ書くとSVMは2クラス分類のためのアルゴリズムである. データが散らばる多次元空間を超平面で区切り, データを２つに分類する. その超平面をマージン最大化という基準でひくとわりとうまく行くねというアルゴリズムである. そこで元の空間で分類できなくともカーネルで定義された別の空間だとうまく行くことがあるため, 分野によって様々なカーネルが考案されている. カーネルは2つのデータを引数として取る関数でその値はおそらく類似度を

incep 2014/05/18

リンク

機械学習(5) – スタンフォード大学の講義から | Synergy Marketing LAB BLOG

こんにちは、馬場です。はい。無事完走しました！報告がだいぶ遅くなりましたが、第９週、第10週の内容と講義全体の総括をしたいと思います。 16. 異常検出今回は異常なデータを検出するアルゴリズムです。例えば、洪水などの災害の検知や製品を作る上で異常なものを除く場合に利用します。まず、データが平均μ、分散σの正規分布だと仮定します。この平均や分散は、学習データから算出します。すると、この情報から特定のデータの出現確率が求められます。そして出現確率があるしきい値εよりも小さい場合に、異常と判定するのです。異常検出モデルを作成する場合にデータを収集した場合、当然異常データが含まれているとしてもほんのわずかでしょう（だって異常なのですから）。このデータをクロスバリデーション用のデータと学習データに分ける場合、学習データは正常データのみで作成し、クロスバリデーションデータやテストデータに、異

incep 2014/03/10

データ数に関する考察がある。

ml
nlp

リンク

[機械学習] A few useful things to know about machine learning - tsubosakaの日記

タイトルの論文はCommunication of the ACM, 2012のレビュー記事ドラフトバージョンは下のリンクから読める。 http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf 割と面白かったのでいくつか内容を紹介概要機械学習システムはデータから自動でタスク(スパムフィルタ、レコメンドなど)をどうやって実行するかを見出すことができます。しかしながら機械学習システムを成功させるには教科書を読んだだけではなかなか見つけづらいお約束事とかがあって、思うようには行かないことが多い。本文献では機械学習の研究者および実務に携わる人間が知っておくべきである事柄を12個に要約しています。一般化が重要機械学習のゴールは訓練データにはないデータに対しても一般化して推定ができるという点になります。単に訓練データのみ分類できればよ

incep 2014/03/10

"たいていの場合データを増やせば増やすほど精度は高くなる。さらに精度が高いとされている複雑な学習機はデータが増えたときにスケールしないことが多いので、まずは単純な学習器を試してみることが必要。"試そう。

ml
nlp

リンク

機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳

皆様こんにちは。今日も元気に自分を見つめ直していますか？自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の