タグ

自然言語処理に関するxiangzeのブックマーク (13)

  • https://hirokatsukataoka.net/temp/presen/230621FM-MetaSurvey2023.pdf

  • [輪講資料] LoRA: Low-Rank Adaptation of
 Large Language Models

    パラメータを固定した事前学習済みモデルに対して、ごく少数のパラメータからなる低ランク行列を導入・学習することで、モデル全体のfine-tuningと同等の性能を発揮できる手法であるLoRAと、その論文について解説した資料です。 深層学習を用いた自然言語処理の歴史的な変遷と周辺技術から、LoRAが必要とされるに至った背景まで丁寧に解説します。

    [輪講資料] LoRA: Low-Rank Adaptation of
 Large Language Models
  • 山形の言語距離 - Qiita

    山形には地方が4つ Twitterでこんな記事を見た。 多民族国家・山形の地域別言語比較です。ご査収ください。 pic.twitter.com/8eeXGNe479 — そ (@g_glider0714) 2016年9月26日 山形県には村山、置賜、最上、庄内の4つの地方があり、それぞれ山形市、米沢市、新庄市、酒田/鶴岡市が中心都市である。(酒田と鶴岡はほら、ツインシティだから・・・) 庄内は他の3つの地方とは山で隔てられていて1つだけ海沿いである。当然言語も庄内とそれ以外に分かれてるんだろうと思ったら、なんかそうでもないようだった。面白そうなので、どの地方が言語的に近いのか測ってみようじゃないか。 どうやって測るか それぞれの標準語について、4つの地方の単語の音声学的な近さを測ればよい。それには、単語を音素表記して、音素列同士の近さを測り、それをすべての項目について足し合わせればよいだろ

    山形の言語距離 - Qiita
  • The Great A.I. Awakening (Published 2016)

    How Google used artificial intelligence to transform Google Translate, one of its more popular services — and how machine learning is poised to reinvent computing itself. Prologue: You Are What You Have ReadLate one Friday night in early November, Jun Rekimoto, a distinguished professor of human-computer interaction at the University of Tokyo, was online preparing for a lecture when he began to no

    The Great A.I. Awakening (Published 2016)
  • 小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

    小説家になろうというWeb小説投稿サイトがあります。 いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。 続々と「小説家になろう」から書籍化作品が登場! - フラン☆Skin はてな支店 小説を読もう! || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。 解析手法 トピックモデルというものを用います。 これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。 今回はLDA(Latent Dirichlet Allocation)という

    小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
  • lsh

    2. ( 最 ) 近傍点探索 ( Nearest Neighbor Search) とは いわゆる、特徴空間内での類似データ探索 二種類の問題が考えられる 定義 ℜ d 空間上の点集合 P が与えられた場合 最近傍点探索 クエリ点 q に対し、 p∈P で、 ||p-q|| を最小とする点 p を求める問題 r- 近傍点探索 クエリ点 q に対し、 p∈P で、 ||p-q||<r となる点 p を ( 存在するのならば ) 列挙する問題 3. 近傍点探索問題 近傍点探索アルゴリズムは、以下のようなタスクにおいて利用される インスタンスベース学習(k-近傍法) クラスタリング データセグメンテーション データベース検索 最短経路木探索(Minimum Spanning Tree) データ圧縮 類似データ検索 4. 近傍点探索アルゴリズム 最も単純なものは、クエリ点 q と、 p∈P の点全

    lsh
  • 本当に必要なN-gramは2割しかない - nokunoの日記

    Entropy-based Pruning of Backoff Language Modelsを読んだ.単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが,なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう.そのための対策としてよくあるのが語彙のサイズを制限する方法と,N-gramの頻度が一定以下のものを切り捨てるという方法(後者の場合は語彙も自動的に制限される).Google語N-gramなども頻度20以上のものが配布されており,効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う(語彙だけだとかなり制限しないとサイズが減らない).しかしカットオフしすぎると性能はかなり落ち込むので,うまい方法はないものかと考えられたのがこの論文の手法である.N-gramのデータには頻度の高い

  • Argmax Operations in NLP

    1. 自然言語処理における argmax 操作 NISHIKAWA Hitoshi NISHIKAWA Hitoshi 2011/07/23 DSIRNLP #1 1 2. 目的 • NLP タスクの全体像をご説明差し上げ、ご理解いた タ ク 全体像をご説 差 上げ ご理解 た だき、皆様の学習の一助とする – NLP とは何ぞや – 他の分野との関係 – 構成要素、 NLP の世界観 • NLP タスクのうち、特に argmax 操作(デコード)と呼 g ばれる操作についてお話差し上げ、モデル開発の 一助とする 2011/07/23 DSIRNLP #1 2 3. 目次 概 分 1. NLPの概要(10分) 1. 他分野との関係、 NLP の諸技術(5分) 他分野 関係、 諸技術( 分) 2. モデル、パラメタ、デコード(5分) 2. デコード(30分) 2 デコ ド(30分) 1. 近

    Argmax Operations in NLP
  • twitterで自然言語処理 - Preferred Networks Research & Development

    勢い余ってスイカを買ったら、毎日べるハメになってしまいました。海野です。 どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。 数えてみたら、重要国際会議であるACLで6件、EMNLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord

    twitterで自然言語処理 - Preferred Networks Research & Development
  • 情報分析システムWISDOM

    WISDOM Xの使い方 WISDOM Xは、あなたが入力した質問に、インターネットにあるいろんな人の意見や事例を探してきて回答します。従来の検索エンジンとは異なり、端的な回答を場合によっては数百件表示しますので、情報の全体像や価値ある想定外を把握するのが容易となります。WISDOM Xの開発は、そうした情報の全体像や価値ある想定外を、考えるヒントや「気付き」として、様々な分野でのイノベーションやリスク管理等でご活用いただけるのではないかということで開始されました。 現在は、次世代音声対話システムWEKDAや 高齢者介護用マルチモーダル音声対話システムMICSUS等のコンポーネントとしても開発が進んでおります。 WISDOM Xをお使いいただく際、質問は、下の図にあるように、ページの一番上にある四角い箱に入力し、「質問する」ボタンをクリックしてください。また、WISDOM Xのアクセス直後

  • 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?

    ※この記事には映画「The Social Network」のネタバレがそれなりに含まれています.これから映画を観る予定の方は逃げた方が賢明です. 最近ブログで宣言した通り,入門 自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中.入門 自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい. ところで,少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て,登場人物の台詞や行動がなかなか面白くて気に入ったのだけど,この脚映画の公式サイトで公開されていることを最近知った.映画の脚となると,特徴的な表現が多く文章数もそれなりにあるので,興味深いコーパスになり得るのではないかと思う. というわけで,NLTK習い立ての

    映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ?
  • 30分で理解する自然言語処理 まとめ - プログラマでありたい

    今まで何か日語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポート コーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。 特徴語抽出のあれこれ あれこれと言いつつ形態素解析Yahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。 ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx

    30分で理解する自然言語処理 まとめ - プログラマでありたい
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1