[B! *algorithm][*book][NLP] sh19910711のブックマーク

深層学習による自然言語処理輪読会#5 資料

sh19910711 2025/04/22

2022 / "カリキュラム学習: 出現頻度が高い単語のみに文脈と予測対象を限定した訓練データを利用。徐々に多様性を増していく + 高頻度の単語は関係が学習しやすいという仮定 + 初期は短い文章を使う"

リンク

素振りの記：BERT-CRFで固有表現認識したい！『大規模言語モデル入門』6章でクイックツアー - nikkie-ftnextの日記

はじめに無敵級ビリーバー3周年👑👑👑 nikkieです。「お休みの日にしかできないことを」と追求した結果、最近のお休みは開発合宿感があります。今回は気になっていた技術、BERT-CRFを触りました。目次はじめに目次ずっと引っかかっていたBERT-CRF 『大規模言語モデル入門』6章「固有表現認識」 BERT-CRFクイックツアーの感想書籍への感想サンプルコードへの感想終わりにずっと引っかかっていたBERT-CRF BERT-CRFという技術は固有表現認識でなかなかよいと聞いていました1。ただずっと「具体的にどう実装すればいいの？」というところがよく分かりませんでした。 2018年に登場した機械学習モデルBERT2。 Transf ormer3というアーキテクチャを使って組み上げられたこのモデルは、1つのモデルで複数の自然言語処理タスクが解けるということで注目を集

sh19910711 2024/05/04

"『大規模言語モデル入門』6章 / 固有表現のタイプにはどんなものがあるか（MUC、IREX、拡張固有表現階層 / BERTのファインチューニングで固有表現認識タスクを解いた後で（エラー分析をはさんで）BERT-CRFで精度改善まで" 2023

リンク

【書籍メモ】『Pythonによる金融テキストマイニング』（朝倉書店） - u++の備忘録

『Pythonによる金融テキストマイニング』（朝倉書店）を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。金融テイストマイニングの概要金融データ解析・機械学習の環境構築テキストマイニングツールの使い方多変量解析を用いた日銀レポート解析と債券市場予測深層学習を用いた価格予想ブートストラップ法を用いた業績要因抽出法決算短信テキストからの因果関係の抽出金融テキストマイニング応用の課題を将来まず、第 4

sh19910711 2024/04/29

"金融テキストマイニングというと金融時系列予測を想像しがち / 第 6 章で業績要因、第 7 章で因果関係の抽出なども応用事例として紹介 / 7章: 決算短信テキストからの因果関係の抽出" 2022

リンク

意見分析エンジン―計算言語学と社会学の接点 - inak0shiのブログ

意見分析エンジン―計算言語学と社会学の接点 posted with amazlet at 15.04.10 大塚裕子乾孝司奥村学コロナ社売り上げランキング: 533,011 Amazon.co.jpで詳細を見る 1〜3章は、意見分析を社会学の観点で解説しており、この本を読もうと思った目的に合わないのでスルー。4〜7章を読んだ。 4章では、意見分析の中でも、その一部である評価分析について、基本的なアプローチを解説。1)評価表現辞書の構築、2)評価情報を観点とした文書分類、3)評価情報を含む文の分類、4)評価情報の要素組の抽出と分類である。1に関しては、a)語彙ネットワーク(WordNet)、b)コーパス内での共起情報(検索エンジン)、c)周辺の文脈を利用する手法が紹介されている。4に関しては、<対象,属性,評価>の3つ組で表わされる属性辞書を、スロットとコーパスの間をブートスト

sh19910711 2024/04/28

"5章では、構文論(syntax)と語用論(pragmatics)に着眼した、意見分析の実践を紹介 / 文法的表現(真偽判断:「だろう」「らしい」「ようだ」 ... )とアンケート文をパターンマッチし、意味タグを付与" 2015

リンク

10万のサークル名を収集して傾向を可視化してみました - ミジンコ組さんの努力の結晶が詰まった本 - このすみろぐ

みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。控えめに言ってすごい本です。本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。まさに、努力の結晶な本です。 daphnia.booth.pm 感想を書いていきます。なぜ10万のサークル名なのか？ノイズとの戦い正規表現によるサークル名の収集サークル名の傾向について MeCabによるサークル名の形態素解析自分のサークル名を考え直してみるさいごになぜ10万のサークル名なのか？ 10万という数字は、仮説を元に導き出された数字です。年間の土日祝日の数： 120 土日祝日に開催されるイベントの数： 10〜40 小規模、中規模、大規模、超大規模な

sh19910711 2024/04/27

"Twitterの発言をひたすら収集 / 「サークル名は〇〇です」といった形式のツイート / 単純にサークルで検索をしてしまうと、大学のサークル活動がたくさんヒット / 漢字は一文字に意味を凝縮できる" 2018

リンク

分散表現とWord2vec｜実践的自然言語処理入門 #3 - Liberal Art’s diary

#1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現・背景（自然言語処理における疎行列の取り扱い問題）自然言語処理を行う際にBoW的なアプローチ（生起頻度のカウントとtf-idf値での計算のどちらも含みます）を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars

sh19910711 2024/04/27

"BoW: 行列のサイズ自体はとても大きな一方で、ほとんどが0 + 済系の記事にスポーツ系の単語は出てきにくい / 「深層学習による自然言語処理」の3章の記述が非常にわかりやすかった" 2019

リンク

huggingface/transformers の日本語BERTで文書分類器を作成する - Qiita

概要先日、huggingfeceのtransf ormersで日本語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transf ormers おはようござえます、日本の友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transf ormers, `bert-base-japanese`. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13

sh19910711 2024/04/22

"transformersとPyTorch, torchtextを用いて日本語の文章を分類するclassifierを作成、ファインチューニングして予測するまで / 実装は「つくりながら学ぶ！PyTorchによる発展ディープラーニング」をとても参照" 2019

リンク

VRAMが少ない環境でLLMを効率的にfine-tuneしてベクトル検索を実現する

LLM周りの基本的な知識とTransf ormersをもっと扱えるようになりたくて、最近大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0

sh19910711 2024/04/17

"大規模言語モデル入門: 「メモリ効率の良いファインチューニング」という節 / 勾配チェックポインティング: メモリ使用量を抑える代わりに計算スピードが少し落ちる + VRAMの使用量は半分以下まで激減" 2023

リンク

焼きなまし法で単語分割 - Negative/Positive Thinking

はじめにオライリーの「入門自然言語処理」に、焼きなまし法を使った教師なし単語分割について書かれていたので、これを試す。アプローチ「出現単語数」＋「のべ出現単語数」＋「入力文の文字数(固定)」＝目的関数を最小化単語の区切り位置を温度によって変化させる(近傍探索) 温度をどんどん冷やしていき、それに伴い、変化させる区切り位置の数を減らすコード #include <iostream> #include <vector> #include <set> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t;

sh19910711 2024/03/02

"オライリーの「入門自然言語処理」 / 「出現単語数」＋「のべ出現単語数」＋「入力文の文字数(固定)」＝目的関数を最小化 / 単語の区切り位置を温度によって変化させる / 変化させる区切り位置の数を減らす" 2012

リンク

『Chainerによる実践深層学習』が出版されます - studylog/北の雲

9月9日にChainer本が出るようです。 Chainerによる実践深層学習posted with amazlet at 16.08.31新納浩幸オーム社売り上げランキング: 2,884 Amazon.co.jpで詳細を見る出版社の目次はこちら Chainerによる実践深層学習 | 理工学専門書,情報科学,知識科学・人工知能 | Ohmsha 目次を簡単にまとめたものはこちら。 1〜2章　Chainerを使う以前の基礎(Numpy、ニューラルネットについて) 3章　Chainerの基礎(Variable・links・optimizersなどの解説) 4章~5章　サンプルやAutoEncoderを実装してChainerを使って動かしてみるとこまで 6章　word2vecを通し、自然言語にNNがどのように使われているかの導入 7章　RNN、LSTM、GRUを使った自然言語への利用(言語モ

sh19910711 2024/02/23

"6〜8章と自然言語まわりにページ数を割いてくれています / 7章　RNN、LSTM、GRUを使った自然言語への利用(言語モデル=LMも) / Kerasが日本語ドキュメントを完備した一方でChainerはそういう話が全く無かった" / 2016

リンク

自然言語処理こそが今世紀最後の錬金術 - やねうらおブログ(移転しました)

『日本語入力を支える技術　~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。日本語入力を支える技術という本を書きました http://d.hatena.ne.jp/tkng/20120203/1328248554 以下、どうでもいいことをつらつらと。最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的に

sh19910711 2023/01/15

2012 / "ハード的な制約から日本語を理解するソフトウェアが書けないという時代はとうに過ぎ去っており、いまはソフトウェアの進歩のほうが遅れをとっている / 自動要約: IMEで使われている技術にも共通するものがある"

リンク

Official髭男dismの『Cry Baby』と『ミックスナッツ』で計量国語学を自由研究する夏🌻 - 5日と20日は歌詞と遊ぼう。

Official髭男dismの『Cry Baby』を久しぶりに聴いてました。いい曲〜〜！で気づいたことがあるんですけど、この歌詞、動詞多くないですか？目視で動詞を見つけて色をつけてみました。こういう感じになるはずです。胸ぐらを掴まれて　強烈なパンチを食らってよろけて肩を並べうずくまった予報通りの雨にお前はにやけて「傷口が綺麗になる」なんて嘘をつくいつも口喧嘩さえうまく出来ないくせして冴えない冗談言うなよあまりのつまらなさに目が潤んだ何度も青アザだらけで涙を　流して　流して不安定な心を肩に預け合いながら　腐り切ったバッドエンドに抗うなぜだろう　喜びよりも心地よい痛み　ずっしりと響いて濡れた服に舌打ちしながら　腫れ上がった顔を見合って笑う土砂降りの夜に　誓ったリベンジ Official髭男dism『Cry Baby』歌詞めちゃくちゃ多い…… 動詞が多いと、ああな

sh19910711 2022/11/26

"動詞が多いと、ああなって、こうなって、そうなって…みたいに、シーンがどんどん変わる感じ。マンガみたい / 文章を要約しようとすると名詞が残る感じある / 計量国語学会『データで学ぶ日本語学入門』"

リンク

自然言語処理と数理計画 - 蝉々亭

風邪をひいてしまいました。小町さんのブログで最適化の話が出ていましたので、床に臥せりながら CList/NLPer が数理計画を勉強するにはどの本を読むべきか、ということを考えていました。数理計画がどういった問題を扱いうるのかというところでは、松井ら『入門オペレーションズ・リサーチ』は例を挙げて平易に、数理計画の応用としての OR の要点を解説しており、入門書はこれで決定でしょう。ただし誤字脱字の類が甚だ多いため、正誤表が必須です。二冊目が難しいところですが、今野ら『整数計画法と組合せ最適化』は実践的な内容で、ソルバが中でどのように動いているか把握するのに好適です。ただし内容が少し古いです。基本的なことがわかったら藤澤ら『応用に役立つ50の最適化問題』がいいでしょう。これは最適化問題のうち商業上有益な応用を持つものが列挙されていて、解法についても解説されています。 CL/NLP に身近な

sh19910711 2022/11/14

2012 / "『応用に役立つ50の最適化問題』: 最適化問題のうち商業上有益な応用を持つものが列挙 / 自動要約は施設配置問題、係り受け解析は最短経路問題、機械翻訳は巡回セールスマン問題と見なすことができ"

リンク

【書評】キッチン・インフォマティクス-料理を支える自然言語処理と画像処理- | ニュース | TechMagic株式会社

キッチン・インフォマティクス-料理を支える自然言語処理と画像処理- 原島純,橋本敦史／共著 (オーム社) まず題名に「おっ」と思わされたので買ってしまいました。「食のロボット」を標榜するTechMagicのエンジニアがこのタイトルを素通りするわけにはいかないですね。著者は原島さん（クックパッド）と橋本さん（オムロンサイニックエックス）です。世に看板だおれのエーアイ書籍が多い中、この本の内容はまったく題名通りです…自然言語処理と画像処理の技術に対して、料理や調理など食に関する応用を解説しています。どちらについても、まずはバックグラウンドとなる技術の説明を試み、次に実際の料理のアプリや関連技術について解説してます。たとえば自然言語処理なら形態素解析、構文解析、オントロジー、といったものを解説したあと、実際のレシピ分類や検索、レシピ生成などの個別の技術について触れていきます。画像処理

sh19910711 2022/09/12

"形態素解析、構文解析、オントロジー、といったものを解説したあと、実際のレシピ分類や検索、レシピ生成などの個別の技術について / 様々なデータセットの紹介と解説がたくさん載っている"

リンク

大学の研究で役に立ったもの（勉強編） - Kesinの知見置き場

大学の研究に役に立ったものシリーズ第2弾です。今回は、研究に関係する技術の勉強に役に立ったものを紹介したいと思います。ちなみに、自分の研究は情報系で、研究室のテーマは自然言語処理、音声言語処理、機械学習関係でした。あくまで自分には役に立った、ということで情報系以外の分野の人には当てはまらないことも多いと思います。（特に今回は自分の研究分野に特化した記事になってしまっています。すいません）サービス編研究のプログラミングにおける悲劇を無くすためのGitとテスト武蔵野日記大学で自然言語処理の研究をされている小町さんのブログで、ほぼ毎日分の更新があります。すごい。自然言語処理についての話題も勉強になりましたが、それよりも大学の運営や研究者の生活について色々知ることができました。大学に通っていても大学の運営や、研究室のボスが普段何をしているのかについては意外と知る機会がないもので、

sh19910711 2022/08/24

2014 / "『言語処理のための機械学習入門』: 最後の章で、実験のやり方や、精度/適合率/F値、検定といった論文の実験結果を読み解くのに必要な知識の解説 + 本格的に論文を読む前にこの本を読んでおくと確実に役に立つ"

リンク

『機械学習エンジニアのためのTransformers』が出ます - Ahogrammer

このたび、オライリー・ジャパンより、『Natural Language Processing with Transf ormers』の翻訳書である『機械学習エンジニアのためのTransf ormers』を出ることになりました。素直にタイトルを訳すと、『Transf ormersによる自然言語処理』のようになると思うのですが、1文字違いの本が出ていたので、このようなタイトルになっています。Amazonだと8月5日に発売のようです。表紙の鳥はゴシキセイガイインコで、オセアニアに生息しています。『機械学習エンジニアのためのTransf ormers』が届きました🤗 来週発売です。 pic.twitter.com/6R2dYh7X7D— Hironsan (@Hironsan13) 2022年7月28日本書はTransf ormersの開発元であるHugging Faceの開発者たちによって執筆された

sh19910711 2022/08/12

"『Natural Language Processing with Transformers』の翻訳書 / Hugging Faceの開発者たちによって執筆 / モデルの高速化技術、ゼロショット学習や少数事例学習、多言語転移やドメイン適応について / 表紙の鳥: オセアニアに生息"

リンク

文化を覗く新しい望遠鏡〜NgramViewer, Word2vec, DALL·E〜｜masa_kazama

イントロ近年、ビッグデータや人工知能の発展により、文化や社会を解像度高く分析する方法が提案されてきました。データ分析によって、今まで定性的に分析されてきた文化や社会が定量的に分析され、新しいわくわくするような知見がたくさん出てきています。文化や社会の分析には、テキスト解析の手法が主に用いられていますが、最近、画像解析の手法の発展も著しく、今後は画像を利用した分析も広がっていくように思います。その中でも、DALL·Eと呼ばれる人工知能の性能は凄まじく、文化や社会を解き明かす新しい分析ツールになりうる可能性を秘めています。 DALL·Eは、文章を入力すると画像を生成してくれる人工知能です。この記事上部の画像は、DALL·Eに「日本のウェルビーイングをテーマにしたピカソ風のアート」を入力して、描いてもらったものです。画像のクオリティはとても高く、人間が描いたのか、人工知能が描いたのかの見極めが

sh19910711 2022/08/01

"「カルチャロミクス：文化をビッグデータで計測する」 : Ngram Viewerを作った研究者の書籍 / 時代ごとに１つの単語の持つ意味合いがどのように変化したかをword2vecで分析する研究 / WEIRD samples: 調査対象が偏っている問題"

リンク

都立大自然言語処理研究室 - 自然言語処理を学ぶ推薦書籍

自然言語処理を学ぶ推薦書籍を紹介します。2025年3月現在、自然言語処理を取り巻く状況が大きく変わっているため、ここに書かれている情報は極めて古く、記録のために残しておきますが、新しく自然言語処理の勉強をしようという人のための参考にはなりません。 2021年03月時点では、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。（概要）自然言語処理（放送大学出版）（理論）言語処理のための機械学習入門＋深層学習による自然言語処理（実装）Python 機械学習プログラミング第3版自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。（数式なし）自然言語処理の基本と技術（数式あり）自然言語処理（放送大学出版）オライリーから出ている「入門自然言語処理」は特殊な本（詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いてい

sh19910711 2022/06/13

"自然言語処理（放送大学 2019）: 放送大学の教科書で、薄い本ながら歴史から最先端の話題も含めコンパクトにまとまっている良書。2019年時点の教科書としては決定版 + 新しい手法のアルゴリズムも解説されている"

リンク

テキストマイニング本3冊 - moroshigeki's blog

最近何冊か出たので科研費で買ってみた。人文・社会科学のためのテキストマイニング作者: 松村真宏,三浦麻子出版社/メーカー: 誠信書房発売日: 2009/04/24メディア: 単行本購入: 6人クリック: 79回この商品を含むブログ (10件) を見る Rによるテキストマイニング入門作者: 石田基広出版社/メーカー: 森北出版発売日: 2008/12/16メディア: 単行本（ソフトカバー）購入: 18人クリック: 250回この商品を含むブログ (29件) を見るテキストデータの統計科学入門作者: 金明哲出版社/メーカー: 岩波書店発売日: 2009/04/28メディア: 単行本購入: 2人クリック: 70回この商品を含むブログ (12件) を見る以前は、概論的過ぎて使えなかったり、いい加減だったりした本が多かったが、この3冊はいずれも内容もしっかりしており、実践的なのでおす

sh19910711 2022/05/12

2009 / "以前は概論的過ぎて使えなかったり、いい加減だったりした本が多かった / 『人文・社会科学のためのテキストマイニング』 > 2ちゃんねるとかが対象になっているので事例を拾い読みするだけでもけっこう楽しい"

リンク

Author Topic Model の導出と実装 - でかいチーズをベーグルする

またまた引き続き青いトピックモデル本から。今回は Author Topic Model を導出して実装してみる。とりあえずこのシリーズは一旦今回で最後。トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソフトカバー）この商品を含むブログ (2件) を見る出典は以下の論文。これまで実装してきたモデルと比べるとずば抜けて有名っぽい。 https://arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf Author Topic Model Author Topic Model (ATM) は文書に付加情報として著者情報が付いているデータのモデリングをするのに使われる*1。一つの文書に複数（一人以上）の著者がいるときに、文書中のそれぞれの単語についてどの著者

sh19910711 2022/01/15

"トピックモデル: 著者情報という付加情報をうまく使ってトピック割り当て > Bob が政治についてよく書くということがデータから推定されれば、Bob が書いた他の文書も政治について書かれていそうだという推定が出来る"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

algorithmとbookとNLPに関するsh19910711のブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2025年10月第1週）

月間はてなブックマーク数ランキング（2025年9月）

今週のはてなブックマーク数ランキング（2025年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (0)

*algorithmと*bookとNLPに関するsh19910711のブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2025年10月第1週）

月間はてなブックマーク数ランキング（2025年9月）

今週のはてなブックマーク数ランキング（2025年9月第4週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

algorithmとbookとNLPに関するsh19910711のブックマーク (29)