[B! 機械学習][nlp] xiangzeのブックマーク

xiangze id:xiangze

機械学習とnlpに関するxiangzeのブックマーク (40)

RWKVとsqlite-vssで高速なベクトル検索を作ってみる
はじめに最近 langchain を使うようになってきて、OpenAIのAPIをちょこちょこ叩くのですが、いかんせん遅いいや十分に早いのだけど、ドキュメントの量があると若干気になってくる速度ですそこで、ローカルLLMとしてrinna を使ってみたりしたのですが、まだまだ遅いですすでに先行して実装例を作ってくれていた RWKVでembedding vectorを計算の記事と SQLiteでベクトル検索ができる拡張sqlite-vssを試すの記事を大いに参考にしながら RWKV と sqlite-vss を使って高速なベクトル検索を作ってみます RWKVのモデル今回は学習済みのRavenモデル RWKV-4-Raven-3B-v12-Eng98%-Other2% を使っていきます OpenAI の text-embedding-ada-002 モデルでは 1536次元と扱いや
xiangze 2023/06/19
nlp

機械学習

database
リンク
統計数理シンポジウム生成モデル岡野原
株式会社 Preferred Networks 岡野原大輔 @hillbig 生成モデルは世界をどのように理解しているのか「統計的機械学習」の中核としての統計数理シンポジウム 2023/05/25 アジェンダ • 現在の代表的な生成モデル大規模言語モデル/ 拡散モデル • 自己教師あり学習 / メタ学習 • 未解決問題岩波書店 2023 一般向け関連書籍岩波書店 2023 専門家向け技術評論社 2021 2022 ディープラーニングの基礎知識日経BP 2022 個別の深い話題生成モデル x ~ p(X | C) X: 生成対象 C: 条件 • 生成モデル：対象ドメインのデータを生成できるようなモデル – テキスト、画像、動画、化合物、行動列等 – 条件を通じて、制約、指示、対象ドメインなどを指定する（条件付き生成モデルの方が学習の面でも使いやすさの面でも有利であ
xiangze 2023/05/27
LLM

機械学習

nlp

transformer

deeplearning

自己教師あり学習

metalearning
リンク
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
xiangze 2023/03/20
ChatGPT

nlp

機械学習
リンク
Solving a machine-learning mystery
MIT researchers found that massive neural network models that are similar to large language models are capable of containing smaller linear models inside their hidden layers, which the large models could train to complete a new task using simple learning algorithms. Large language models like OpenAI’s GPT-3 are massive neural networks that can generate human-like text, from poetry to programming c
xiangze 2023/02/10
機械学習

nlp
リンク
Gensim: topic modelling for humans
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
xiangze 2022/12/05
gensim

nlp

lda

機械学習
リンク
「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法（LDA）」「Word2vec」とは
「Gensim」による機械学習を使った自然言語分析の基本――「NLTK」「潜在的ディリクレ配分法（LDA）」「Word2vec」とは：Pythonで始める機械学習入門（9）（1/2 ページ）最近流行の機械学習／Deep Learningを試してみたいという人のために、Pythonを使った機械学習について主要なライブラリ／ツールの使い方を中心に解説する連載。今回は機械学習を使った自然言語分析のライブラリ「Gensim」について解説します。プログラミング言語「Python」は機械学習の分野で広く使われており、最近の機械学習／Deep Learningの流行により使う人が増えているかと思います。一方で、「機械学習に興味を持ったので自分でも試してみたいけど、どこから手を付けていいのか」という話もよく聞きます。本連載「Pythonで始める機械学習入門」では、そのような人をターゲットに、Pytho
xiangze 2022/12/04
lda

gensim

python

機械学習

nlp
リンク
単語を箱で表現！新たな埋め込み手法 Box Embedding を基礎から理解
xiangze 2022/10/13
機械学習

nlp
リンク
話題のOpenAIの新たな画像分類モデルCLIPを論文から徹底解説！
はじめに OpenAIより幅広いタスクでゼロショット転移（タスクごとのFine-tuningを必要としない）が可能な事前学習画像分類モデルCLIPが発表されたので、論文をもとに詳細解説します。簡単にまとめた記事も掲載しておりますので、お時間がない方はこちらをご参照下さい。（自然言語と画像を結びつけて高い汎化性能を実現したOpenAIのCLIPを紹介！）なお、この記事で用いた画像はすべて下記論文より引用したものです。論文 Learning Transferable Visual Models From Natural Language Supervision https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf OpenAIブログ CLI
xiangze 2022/09/26
CLIP

NLP

機械学習

deeplearning
リンク
丁寧な謝罪メールをAIが生成、巨大言語モデルが優秀なビジネスパートナーに
近年における「すごいAI（人工知能）」の代表格である巨大言語モデルが、日本語でも威力を示し始めた。LINEが構築した390億パラメーターの日本語版巨大言語モデル「HyperCLOVA」は、謝罪メール作成や議事録要約、詩や小説の執筆といった様々なタスクで、非常に流ちょうな日本語の文章を生成している。驚くべき能力の一端を紹介しよう。メール作成や議事録の取りまとめ、コールセンターでの顧客対応などは多くの業種で発生する業務だ。共通するのは必要な情報を理解・抽出し、相手に合わせて端的に伝える能力で、社会人にとって不可欠なビジネススキルといえる。最新の巨大言語モデルは人間のインプットに応じて的確に意図をくみ取り、業務をサポートする存在となりつつある。箇条書きからビジネスメール文を生成「いつもお世話になっております。先日は、弊社のミスにより納期の遅延が発生し、大変ご迷惑をおかけいたしました。心より
xiangze 2022/08/23
NLP

機械学習
リンク
Modern Deep Learning Techniques Applied to Natural Language Processing by Authors
This project contains an overview of recent trends in deep learning based natural language processing (NLP). It covers the theoretical descriptions and implementation details behind deep learning models, such as recurrent neural networks (RNNs), convolutional neural networks (CNNs), and reinforcement learning, used to solve various NLP tasks and applications. The overview also contains a summary o
xiangze 2019/01/21
nlp

機械学習
リンク
KerasとgensimでなんJスレタイ生成器を構築する（１回目） - のどあめ
最近リベンジしました ykicisk.hatena blog.com 初めて買ったGPU（GeForce GTX 1050 Ti）を試用するために、 Kerasとgensimを使ってなんJスレタイ生成器をつくってみました。生成サンプルは以下のとおりです。似たようなものが多いですが、なんJ感がでていて良い感じなものができました。 # 「【悲報」から始まるスレタイ _start_ 【悲報】なんJ 民とんでもないことをしてしまう _end_ _start_ 【悲報】なんJ 民さんガチでやっていた _end_ _start_ 【悲報】なんJ 民さんとんでもないことをしてしまう _end_ _start_ 【悲報】なんJ 民とんでもない事をしてしまう _end_ _start_ 【悲報】なんJ 民に自信ニキ
xiangze 2018/02/02
gensim

nlp

機械学習
リンク
A Latent Variable Model Approach to PMI-based Word Embeddings
xiangze 2016/10/01
NLP

情報幾何

機械学習
リンク
pixiv小説で機械学習したらどうなるのっと【学習済みモデルデータ配布あり】 - pixiv inside [archive]
こんばんは。プログラマーのhakatashiです。2ヶ月ぶりですね。普段はpixivコミックやpixivノベルの開発を手伝っていますが、今回もそれとは全く関係ない話をします。 pixiv×機械学習「機械学習」「深層学習」といった単語がプログラマーの間でも広く囁かれるようになって既に幾年月経とうとしています。ここpixivの開発陣においても、人口に膾炙する機械学習の輝かしい成果に関する話題は尽きることがなく、常に最新のトピックに目を光らせています。そんな取り組みの一環として、今回は弊社が運営するpixivの小説機能の投稿データで機械学習を行ってみたので、簡単に紹介したいと思います。 ※この記事における「pixiv 小説」とは「pixivの小説投稿機能およびそれによってpixivに投稿された小説」を指し、「pixivノベル」とは異なります。 word2vecとは自然言語処理における機械学習
xiangze 2016/09/14
nlp

機械学習

pixiv
リンク
はてな社内の勉強会で構造学習について発表しました - yasuhisa's blog
先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。今日からできる構造学習(主に構造化パーセプトロンについて) from syou6162 structured_perceptron/structured_perceptron.pl at master · syou6162/structured_perceptron 「えっ、Perlかよ」という人がいるといけないので、Clojureで構造化パーセプトロンを使った係り受け解析のサンプルコードへのリンクも張っておきます(2種類あります)。PerlもClojureもあれば8割くらいの人はカバーできそうなので、安心ですね。 syou6162/simple_shift_reduce_parsing syou616
xiangze 2016/06/28
機械学習

NLP

構造学習
リンク
Memory Networks for Language Understanding, ICML Tutorial 2016
Memory Networks for Language Understanding, ICML Tutorial 2016 Speaker: Jason Weston Time: 11am-1 pm, June 19 @ Crown Plaza Broadway + Breakout room There has been a recent resurgence in interest in the use of the combination of reasoning, attention and memory for solving tasks, particularly in the field of language understanding. I will review some of these recent efforts, as well as focusing on o
xiangze 2016/06/20
機械学習

nlp
リンク
Find_Similar_Papers_Knn
Explore and run machine learning code with Kaggle Notebooks | Using data from NIPS 2015 Papers
xiangze 2016/01/15
NLP

機械学習
リンク
gensim：关于 word2vec 模型的训练与效果对比 - 夢沉抹大拉
xiangze 2015/11/18
NLP

機械学習
リンク
The Unreasonable Effectiveness of Recurrent Neural Networks
May 21, 2015 There’s something magical about Recurrent Neural Networks (RNNs). I still rem ember when I trained my first recurrent network for Image Captioning. Within a few dozen minutes of training my first baby model (with rather arbitrarily-chosen hyperparameters) started to generate very nice looking descriptions of images that were on the edge of making sense. Sometimes the ratio of how simpl
xiangze 2015/06/11
機械学習

deeplearning

音楽

nlp
リンク
Gensim: topic modelling for humans
Documentation¶ We welcome contributions to our documentation via GitHub pull requests, whether it’s fixing a typo or authoring an entirely new tutorial or guide. If you’re thinking about contributing documentation, please see How to Author Gensim Documentation. Core Tutorials: New Users Start Here!¶ If you’re new to gensim, we recommend going through all core tutorials in order. Understanding this
xiangze 2015/04/23
python

gensim

NLP

機械学習
リンク
Vol.27 No.3 (2012/05) Latent Topic Model (潜在的トピックモデル) – 人工知能学会 (The Japanese Society for Artificial Intelligence)
私のブックマーク Latent Topic Model (潜在的トピックモデル) 東京大学情報基盤センター助教佐藤一誠 (Issei Sato) URL: http://www.r.dl.itc.u-tokyo.ac.jp/~sato/ 1.はじめに近年、Topic modelと呼ばれる確率的潜在変数モデルが、機械学習とデータマイニングの境界分野で盛んに研究されています。また、Topic modelは、自然言語処理、画像処理、Web解析など様々な応用分野でも多くの適用例が報告されています。ここでは、Topic modelの研究に関する情報を紹介します。 2.国際会議機械学習およびデータマイニングでは、主に国際会議で最先端の議論がされているため、主要国際会議を把握しておくことが重要です。Topic modelの研究では、主に以下の国際会議が重要視されています。 Neural In
xiangze 2015/03/14
機械学習

nlp
リンク
1 2 次のページ