[B! *algorithm][NLP][*book] [2ページ] sh19910711のブックマーク

sh19910711 id:sh19910711

algorithmとNLPとbookに関するsh19910711のブックマーク (28)

Miauhaus
LatestA (tech | wanderlust | cat) log by a tuxedo-coloured cat.
sh19910711 2021/11/23
"論文にはあまり書かれないような話題が，丁寧に説明されている / 分野特有の難しさを強調するだけではなく，どうやってその難しさに向き合うかについての知見が書かれています"

*book

*algorithm

NLP

学習
リンク
「犯罪捜査のためのテキストマイニング」読みました - myaun’s blog
読んだ本犯罪捜査のためのテキストマイニング: 文章の指紋を探り,サイバー犯罪に挑む計量的文体分析の手法作者: 財津亘,金明哲出版社/メーカー: 共立出版発売日: 2019/01/09メディア: 単行本この商品を含むブログを見るどんな本近年増加しているインターネット上が舞台となる犯罪(2012年の「パソコン遠隔操作事件」など)に計量文体分析で挑むために、調査研究してきた著者らがその有効性について解説する。紹介する手法は、犯罪捜査のためのテキストマイニング技術の応用書き手を特定する「著者識別」書き手の性別や年齢層を推定する「著者プロファイリング」など... 手法の解説では、PCA, SVM, ランダムフォレストなども紹介されているが、数式は非常に少なく、身近な実例を多く用いて説明しているので、数学などの背景知識がほとんど無くても読める。所感私自身、特定のドメインにおいて自然
sh19910711 2021/07/31
"多くの調査、分析例があって、著書のドメイン（犯罪調査）以外であってもNLPの実務応用のアイデアにつながる可能性は大いにある"

*book

*algorithm

NLP
リンク
分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。情報検索論文読み会のスケジュールそこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書
sh19910711 2021/06/08
"医療言語は表現揺れが大きく単語頻度ベースだと類似文書を出せない可能性 > 医療言語処理という本が面白い / Vald: NGTを内部で利用するスケーラブルな分散型ベクトル検索エンジン > Helmが公式から提供"

*algorithm

NLP

*data

search

近傍

--

*book
リンク
中国トップ研究者による自然言語処理の入門者へのアドバイス
スタンフォード大学の博士課程を卒業、対話モデル・強化学習の応用等の分野で多大な成果を残し、現在では中国の自然言語処理スタートアップ Shannon.ai をリードする Jiwei Li (李纪为)氏による、「自然言語処理に入門する際のちょっとしたアドバイス (初入NLP领域的一些小建议)」と題された記事がありましたので、内容を簡単に紹介します。私もこの分野でかれこれ10年以上、研究開発に携わっていますが、彼のアドバイスには同意するところが多いです。どちらかと言えば、修士・博士課程の学生のような、「自然言語処理の研究に入門する人」を対象に書かれた文章ですが、それ以外、例えば、業務で自然言語処理を使うような方にも有用なアドバイスが多くあります。彼のような優秀な研究者でも、「PRML を途中で投げ出した」ような体験談が語られているところ、私達にも親近感が持てますね。個人的には、近年の中国と中
sh19910711 2021/05/01
"Jurafsky & Martin の Speech and Language Processing > NLP の基礎知識や、基本的なタスクと解決の道筋が示されている / Chris Manning の Introduction to Information Retrieval"

*book

*algorithm

NLP

機械学習
リンク
超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
はじめに超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ＆試してみた。与えられるデータ大量のデータがストリーム形式で与えられるとする高速にどんどん与えられる例えば、データパケット監視やtwitterなどカウントしたいデータの種類が膨大種類をメモリに保持するのが無理ストリームデータにおける頻度カウント法正確なカウントは難しいが、近似的に頻度カウントを行うことができる Sticky Sampling Algorithmは解釈が間違っているかもしれない Sticky Sampling Algorithm カウントする要素をサンプリングで選ぶ方法保持するのは以下の2つのペアの集合 e : 要素(例えばN-gram) f
sh19910711 2020/10/04
*book

*algorithm

NLP
リンク
CVPR論文のトピックモデルによる分類と傾向 - xiangze's sparse blog
コンピュータビジョンの国際学会CVPRの最近の論文全文をトピックモデルに基づいて分類、単語分布を可視化できたのでその結果を手短にまとめます。図を見てもらったほうが早いかもしれません。手法 https://github.com/colincsl/cvpr2013papers からforkした https://github.com/xiangze/cvpr2013papers を使って論文のダウンロード、全文text化を行いました。さらにgensimを用いてcorpus、辞書の作成、LDAによるトピックの分類を行い(genLDA.py)、pyLDAvisで可視化(genpages.py)しました。 LDAvisはもともとRのパッケージでshinyでクラスタリングの結果を可視化、共有する出来ます。pyLDAvisは見た目は同じでwebページのほかにipython notebook(Jupyte
sh19910711 2020/07/12
*book

*algorithm

NLP
リンク
SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
はじめに Pure Rubyな形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器は食べ物の名前がつくことが多い。「Rubyなので赤い食べ物が良いかな」と考えて、文字数とかわいらしさからSuika（スイカ）とした。使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:
sh19910711 2020/07/05
*book

*algorithm

NLP

*program

ruby
リンク
コロナ社「構文解析」本のレビュー - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに自然言語処理シリーズの「文脈解析」本のレビューに引き続き、「構文解析」本を手に入れたのでレビューしたいと思います。構文解析とは、文の背後にある「構造」を抽出する処理のことを指します。例えば、どの単語とどの単語が一つのまとまりなのかであったり、どの単語がどの単語に係っているかなどを見つけることです。そして、抽出した「構造」に「意味」を与えるのが文脈解析です。今の例だと、ある単語が別の単語に係っている時に、どういう意味関係かを推定するのが文脈解析です。そのため、構文解析と文脈解析は処理タスクとして共通している部分も多
sh19910711 2017/08/02
8/10

*book

*algorithm

NLP
リンク
前のページ 1 2