タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

*algorithmとNLPと*bookに関するsh19910711のブックマーク (28)

  • Miauhaus

    LatestA (tech | wanderlust | cat) log by a tuxedo-coloured cat.

    Miauhaus
    sh19910711
    sh19910711 2021/11/23
    "論文にはあまり書かれないような話題が,丁寧に説明されている / 分野特有の難しさを強調するだけではなく,どうやってその難しさに向き合うかについての知見が書かれています"
  • 「犯罪捜査のためのテキストマイニング」読みました - myaun’s blog

    読んだ 犯罪捜査のためのテキストマイニング: 文章の指紋を探り,サイバー犯罪に挑む計量的文体分析の手法 作者: 財津亘,金明哲出版社/メーカー: 共立出版発売日: 2019/01/09メディア: 単行この商品を含むブログを見る どんな 近年増加しているインターネット上が舞台となる犯罪(2012年の「パソコン遠隔操作事件」など)に計量文体分析で挑むために、調査研究してきた著者らがその有効性について解説する。 紹介する手法は、犯罪捜査のためのテキストマイニング技術の応用 書き手を特定する「著者識別」 書き手の性別や年齢層を推定する「著者プロファイリング」 など... 手法の解説では、PCA, SVM, ランダムフォレストなども紹介されているが、数式は非常に少なく、身近な実例を多く用いて説明しているので、数学などの背景知識がほとんど無くても読める。 所感 私自身、特定のドメインにおいて自然

    「犯罪捜査のためのテキストマイニング」読みました - myaun’s blog
    sh19910711
    sh19910711 2021/07/31
    "多くの調査、分析例があって、著書のドメイン(犯罪調査)以外であってもNLPの実務応用のアイデアにつながる可能性は大いにある"
  • 分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書

    分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
    sh19910711
    sh19910711 2021/06/08
    "医療言語は表現揺れが大きく単語頻度ベースだと類似文書を出せない可能性 > 医療言語処理という本が面白い / Vald: NGTを内部で利用するスケーラブルな分散型ベクトル検索エンジン > Helmが公式から提供"
  • 中国トップ研究者による自然言語処理の入門者へのアドバイス

    スタンフォード大学の博士課程を卒業、対話モデル・強化学習の応用等の分野で多大な成果を残し、現在では中国の自然言語処理スタートアップ Shannon.ai をリードする Jiwei Li (李纪为)氏による、「自然言語処理に入門する際のちょっとしたアドバイス (初入NLP领域的一些小建议)」と題された記事がありましたので、内容を簡単に紹介します。 私もこの分野でかれこれ10年以上、研究開発に携わっていますが、彼のアドバイスには同意するところが多いです。どちらかと言えば、修士・博士課程の学生のような、「自然言語処理の研究に入門する人」を対象に書かれた文章ですが、それ以外、例えば、業務で自然言語処理を使うような方にも有用なアドバイスが多くあります。 彼のような優秀な研究者でも、「PRML を途中で投げ出した」ような体験談が語られているところ、私達にも親近感が持てますね。個人的には、近年の中国と中

    中国トップ研究者による自然言語処理の入門者へのアドバイス
    sh19910711
    sh19910711 2021/05/01
    "Jurafsky & Martin の Speech and Language Processing > NLP の基礎知識や、基本的なタスクと解決の道筋が示されている / Chris Manning の Introduction to Information Retrieval"
  • 超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking

    はじめに 超大規模なテキストデータでのN-gram統計を取る場合、そもそもデータがメモリにのらなくてSuffixArrayを使ったカウントも無理だったりする。近似値でよい場合、効率的な方法があると知ったのでちょっとメモ&試してみた。 与えられるデータ 大量のデータがストリーム形式で与えられるとする 高速にどんどん与えられる 例えば、データパケット監視やtwitterなど カウントしたいデータの種類が膨大 種類をメモリに保持するのが無理 ストリームデータにおける頻度カウント法 正確なカウントは難しいが、近似的に頻度カウントを行うことができる Sticky Sampling Algorithmは解釈が間違っているかもしれない Sticky Sampling Algorithm カウントする要素をサンプリングで選ぶ方法 保持するのは以下の2つのペアの集合 e : 要素(例えばN-gram) f

    超大規模テキストにおけるN-gram統計 - Negative/Positive Thinking
  • CVPR論文のトピックモデルによる分類と傾向 - xiangze's sparse blog

    コンピュータビジョンの国際学会CVPRの最近の論文全文をトピックモデルに基づいて分類、単語分布を可視化できたのでその結果を手短にまとめます。図を見てもらったほうが早いかもしれません。 手法 https://github.com/colincsl/cvpr2013papers からforkした https://github.com/xiangze/cvpr2013papers を使って論文のダウンロード、全文text化を行いました。さらにgensimを用いてcorpus、辞書の作成、LDAによるトピックの分類を行い(genLDA.py)、pyLDAvisで可視化(genpages.py)しました。 LDAvisはもともとRのパッケージでshinyでクラスタリングの結果を可視化、共有する出来ます。pyLDAvisは見た目は同じでwebページのほかにipython notebook(Jupyte

    CVPR論文のトピックモデルによる分類と傾向 - xiangze's sparse blog
  • SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記

    はじめに Pure Ruby形態素解析器Suikaを作成した。開発中でバッリバリにα版だが、思い切ってリリースすることにした。 suika | RubyGems.org | your community gem host 最も有名な形態素解析器であるMeCabもそうだが、形態素解析器はべ物の名前がつくことが多い。「Rubyなので赤いべ物が良いかな」と考えて、文字数とかわいらしさからSuika(スイカ)とした。 使い方 SuikaはPure Rubyで作られているため、MeCabをはじめ特別なライブラリを別途インストールする必要はない。 gem install suika バッリバリにα版なので、機能はないに等しく、オプションなしのMeCabコマンドと同様となる。 $ irb irb(main):001:0> require 'suika' => true irb(main):002:

    SuikaというPure Rubyな形態素解析器を作成した - 洋食の日記
  • コロナ社「構文解析」本のレビュー - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 自然言語処理シリーズの「文脈解析」のレビューに引き続き、 「構文解析」を手に入れたのでレビューしたいと思います。 構文解析とは、文の背後にある「構造」を抽出する処理のことを指します。 例えば、どの単語とどの単語が一つのまとまりなのかであったり、 どの単語がどの単語に係っているかなどを見つけることです。 そして、抽出した「構造」に「意味」を与えるのが文脈解析です。 今の例だと、ある単語が別の単語に係っている時に、どういう意味関係かを推定するのが文脈解析です。 そのため、構文解析と文脈解析は処理タスクとして共通している部分も多

    コロナ社「構文解析」本のレビュー - Qiita