[B! 自然言語処理] xiangzeのブックマーク

xiangze id:xiangze

自然言語処理に関するxiangzeのブックマーク (13)

https://hirokatsukataoka.net/temp/presen/230621FM-MetaSurvey2023.pdf
xiangze 2023/06/23
ロボット

自然言語処理

LLM

nlp
リンク
[輪講資料] LoRA: Low-Rank Adaptation of  Large Language Models
パラメータを固定した事前学習済みモデルに対して、ごく少数のパラメータからなる低ランク行列を導入・学習することで、モデル全体のfine-tuningと同等の性能を発揮できる手法であるLoRAと、その論文について解説した資料です。深層学習を用いた自然言語処理の歴史的な変遷と周辺技術から、LoRAが必要とされるに至った背景まで丁寧に解説します。
xiangze 2023/04/20
Lora

機械学習
リンク
山形の言語距離 - Qiita
山形には地方が４つ Twitterでこんな記事を見た。多民族国家・山形の地域別言語比較です。ご査収ください。 pic.twitter.com/8eeXGNe479 — そ (@g_glider0714) 2016年9月26日山形県には村山、置賜、最上、庄内の4つの地方があり、それぞれ山形市、米沢市、新庄市、酒田/鶴岡市が中心都市である。（酒田と鶴岡はほら、ツインシティだから・・・）庄内は他の3つの地方とは山で隔てられていて1つだけ海沿いである。当然言語も庄内とそれ以外に分かれてるんだろうと思ったら、なんかそうでもないようだった。面白そうなので、どの地方が言語的に近いのか測ってみようじゃないか。どうやって測るかそれぞれの標準語について、4つの地方の単語の音声学的な近さを測ればよい。それには、単語を音素表記して、音素列同士の近さを測り、それをすべての項目について足し合わせればよいだろ
xiangze 2018/01/04
R

自然言語処理

方言
リンク
The Great A.I. Awakening (Published 2016)
How Google used artificial intelligence to transf orm Google Translate, one of its more popular services — and how machine learning is poised to reinvent computing itself. Prologue: You Are What You Have ReadLate one Friday night in early November, Jun Rekimoto, a distinguished professor of human-computer interaction at the University of Tokyo, was online preparing for a lecture when he began to no
xiangze 2016/12/17
nlc

自然言語処理
リンク
小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm
小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という
xiangze 2014/01/11
自然言語処理

nlc

トピックモデル
リンク
lsh
2. ( 最 ) 近傍点探索 ( Nearest Neighbor Search) とはいわゆる、特徴空間内での類似データ探索二種類の問題が考えられる定義 ℜ d 空間上の点集合 P が与えられた場合最近傍点探索クエリ点 q に対し、 p∈P で、 ||p-q|| を最小とする点 p を求める問題 r- 近傍点探索クエリ点 q に対し、 p∈P で、 ||p-q||<r となる点 p を ( 存在するのならば ) 列挙する問題 3. 近傍点探索問題近傍点探索アルゴリズムは、以下のようなタスクにおいて利用されるインスタンスベース学習(k-近傍法) クラスタリングデータセグメンテーションデータベース検索最短経路木探索(Minimum Spanning Tree) データ圧縮類似データ検索 4. 近傍点探索アルゴリズム最も単純なものは、クエリ点 q と、 p∈P の点全
xiangze 2011/09/25
algorithm

自然言語処理

lsh

検索
リンク
本当に必要なN-gramは2割しかない - nokunoの日記
Entropy-based Pruning of Backoff Language Modelsを読んだ．単語N-gramはとてもよくできていて言語モデルとしての性能はかなりのものなのだが，なんの枝刈りもせずに中規模〜大規模なデータに適用しようとするとサイズが馬鹿でかくなってしまう．そのための対策としてよくあるのが語彙のサイズを制限する方法と，N-gramの頻度が一定以下のものを切り捨てるという方法（後者の場合は語彙も自動的に制限される）．Google 日本語N-gramなども頻度20以上のものが配布されており，効率よくデータサイズを減らすためには頻度でカットオフする方式がよく使われていると思う（語彙だけだとかなり制限しないとサイズが減らない）．しかしカットオフしすぎると性能はかなり落ち込むので，うまい方法はないものかと考えられたのがこの論文の手法である．N-gramのデータには頻度の高い
xiangze 2011/09/16
自然言語処理

圧縮
リンク
Argmax Operations in NLP
1. 自然言語処理における argmax 操作 NISHIKAWA Hitoshi NISHIKAWA Hitoshi 2011/07/23 DSIRNLP #1 1 2. 目的 • NLP タスクの全体像をご説明差し上げ、ご理解いたタク全体像をご説差上げご理解ただき、皆様の学習の一助とする – NLP とは何ぞや – 他の分野との関係 – 構成要素、 NLP の世界観 • NLP タスクのうち、特に argmax 操作（デコード）と呼 g ばれる操作についてお話差し上げ、モデル開発の一助とする 2011/07/23 DSIRNLP #1 2 3. 目次概分 1. NLPの概要(10分) 1. 他分野との関係、 NLP の諸技術(5分) 他分野関係、諸技術( 分) 2. モデル、パラメタ、デコード(5分) 2. デコード(30分) 2 デコド(30分) 1. 近
xiangze 2011/09/10
自然言語処理
リンク
twitterで自然言語処理 - Preferred Networks Research & Development
勢い余ってスイカを買ったら、毎日食べるハメになってしまいました。海野です。どんな業界もそうだと思いますが、世の中の流行りものの論文が増えるという面が自然言語処理界隈にもあります。Web、blog、と来て、最近のトレンドはやはりtwitterに代表されるmicro blogでしょうか。今年の言語処理学会の年次大会でtwitterセッションは大盛況でしたが、国際会議でもtwitterを題材として発表が増えています。数えてみたら、重要国際会議であるACLで6件、EM NLPでも3件、twitterをタイトルに含む発表が今年ありました。ちなみに2010年の会議では1件もありませんでした。そんなわけで、私も今日はそんな流行りに乗っかって、twitter言語処理関連の論文を3つ紹介します。 Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! UsingWord
xiangze 2011/08/21
自然言語処理

機械学習
リンク
情報分析システムWISDOM
WISDOM Xの使い方 WISDOM Xは、あなたが入力した質問に、インターネットにあるいろんな人の意見や事例を探してきて回答します。従来の検索エンジンとは異なり、端的な回答を場合によっては数百件表示しますので、情報の全体像や価値ある想定外を把握するのが容易となります。WISDOM Xの開発は、そうした情報の全体像や価値ある想定外を、考えるヒントや「気付き」として、様々な分野でのイノベーションやリスク管理等でご活用いただけるのではないかということで開始されました。現在は、次世代音声対話システムWEKDAや高齢者介護用マルチモーダル音声対話システムMICSUS等のコンポーネントとしても開発が進んでおります。 WISDOM Xをお使いいただく際、質問は、下の図にあるように、ページの一番上にある四角い箱に入力し、「質問する」ボタンをクリックしてください。また、WISDOM Xのアクセス直後
xiangze 2011/03/17
webサービス

nict

自然言語処理

web
リンク
映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ？
※この記事には映画「The Social Network」のネタバレがそれなりに含まれています．これから映画を観る予定の方は逃げた方が賢明です．最近ブログで宣言した通り，入門自然言語処理を読みつつPythonのNLTK(Natural Language ToolKit)を使った自然言語処理について勉強中．入門自然言語処理はPythonをロクに触ったことがない私でもちゃんと理解しながら読み進められるようになっているのが嬉しい．ところで，少し前に映画「The Social Network (ソーシャル・ネットワーク)」を観て，登場人物の台詞や行動がなかなか面白くて気に入ったのだけど，この脚本が映画の公式サイトで公開されていることを最近知った．映画の脚本となると，特徴的な表現が多く文章数もそれなりにあるので，興味深いコーパスになり得るのではないかと思う．というわけで，NLTK習い立ての
xiangze 2011/02/14
自然言語処理

network
リンク
30分で理解する自然言語処理　まとめ - プログラマでありたい
今まで何本か日本語処理のエントリーを書いてきました。後で振り返り易いように、ここらで一覧にまとめておきます。 wikipediaのダウンロード&データベースにインポートコーパスとして、wikipediaの存在はありがたいです。まずはここから始めるのが良いですね。併せて紹介しているxml2sqlも秀逸です。特徴語抽出のあれこれあれこれと言いつつ形態素解析とYahoo APIを使った特徴語抽出のみを紹介しています。手軽に出来るのが魅力です。ベイジアンフィルター　Perlで作りたい人に教えてあげたいちょっとしたこと Algorithm::NaiveBayesの使い方を簡単なサンプルで紹介いたしました。割と好評です。ベイジアンフィルターの人気の高さを垣間みれますね。 TermExtract Perlで出来る特徴語抽出 TermExtractという専門語抽出モジュールの紹介です。TermEx
xiangze 2008/08/31
自然言語処理
リンク
MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
xiangze 2008/08/31
mecab

形態素解析

自然言語処理
リンク
1