はじめに 無敵級ビリーバー3周年👑👑👑 nikkieです。 「お休みの日にしかできないことを」と追求した結果、最近のお休みは開発合宿感があります。 今回は気になっていた技術、BERT-CRFを触りました。 目次 はじめに 目次 ずっと引っかかっていたBERT-CRF 『大規模言語モデル入門』6章「固有表現認識」 BERT-CRFクイックツアーの感想 書籍への感想 サンプルコードへの感想 終わりに ずっと引っかかっていたBERT-CRF BERT-CRFという技術は固有表現認識でなかなかよいと聞いていました1。 ただずっと「具体的にどう実装すればいいの?」というところがよく分かりませんでした。 2018年に登場した機械学習モデルBERT2。 Transformer3というアーキテクチャを使って組み上げられたこのモデルは、1つのモデルで複数の自然言語処理タスクが解けるということで注目を集
『Pythonによる金融テキストマイニング』(朝倉書店)を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。 金融テイストマイニングの概要 金融データ解析・機械学習の環境構築 テキストマイニングツールの使い方 多変量解析を用いた日銀レポート解析と債券市場予測 深層学習を用いた価格予想 ブートストラップ法を用いた業績要因抽出法 決算短信テキストからの因果関係の抽出 金融テキストマイニング応用の課題を将来 まず、第 4
意見分析エンジン―計算言語学と社会学の接点 posted with amazlet at 15.04.10 大塚 裕子 乾 孝司 奥村 学 コロナ社 売り上げランキング: 533,011 Amazon.co.jpで詳細を見る 1〜3章は、意見分析を社会学の観点で解説しており、この本を読もうと思った目的に合わないのでスルー。4〜7章を読んだ。 4章では、意見分析の中でも、その一部である評価分析について、基本的なアプローチを解説。1)評価表現辞書の構築、2)評価情報を観点とした文書分類、3)評価情報を含む文の分類、4)評価情報の要素組の抽出と分類である。1に関しては、a)語彙ネットワーク(WordNet)、b)コーパス内での共起情報(検索エンジン)、c)周辺の文脈を利用する手法が紹介されている。4に関しては、<対象,属性,評価>の3つ組で表わされる属性辞書を、スロットとコーパスの間をブートスト
みじんこ組さんの「10万のサークル名を収集して傾向を可視化してみました」を読みました。 控えめに言ってすごい本です。 本書は、まずはじめにTwitterの発言をひたすら収集し、そこからサークル名を抜き出します。例えば、正規表現を活用し「サークル名は〇〇です」といった形式のツイートから、サークル名だけを取り出していきます。 まさに、努力の結晶な本です。 daphnia.booth.pm 感想を書いていきます。 なぜ10万のサークル名なのか? ノイズとの戦い 正規表現によるサークル名の収集 サークル名の傾向について MeCabによるサークル名の形態素解析 自分のサークル名を考え直してみる さいごに なぜ10万のサークル名なのか? 10万という数字は、仮説を元に導き出された数字です。 年間の土日祝日の数: 120 土日祝日に開催されるイベントの数: 10〜40 小規模、中規模、大規模、超大規模な
#1ではBoWと形態素解析の導入、#2では特徴語抽出とtf-idfについて取り扱いました。 #3ではここまで出てきた疎行列(Sparse matrix)の取り扱いにあたって分散表現とWord2vecについて取り扱いたいと思います。 以下目次になります。 1. 疎行列の取り扱いと局所表現・分散表現 2. Word2vecの仕組み 3. Word2vecの実装 4. まとめ 1. 疎行列の取り扱いと局所表現、分散表現 ・背景(自然言語処理における疎行列の取り扱い問題) 自然言語処理を行う際にBoW的なアプローチ(生起頻度のカウントとtf-idf値での計算のどちらも含みます)を行うにあたって一番ネックになりうるのは疎行列(Sparse matrix)の問題です。 https://scikit-learn.org/0.16/modules/feature_extraction.html#spars
概要 先日、huggingfeceのtransformersで日本語学習済BERTが公式に使えるようになりました。 https://github.com/huggingface/transformers おはようござえます、日本の友達 Hello, Friends from Japan 🇯🇵! Thanks to @NlpTohoku, we now have a state-of-the-art Japanese language model in Transformers, `bert-base-japanese`. Can you guess what the model outputs in the masked LM task below? pic.twitter.com/XIBUu7wrex — Hugging Face (@huggingface) December 13
LLM周りの基本的な知識とTransformersをもっと扱えるようになりたくて、最近 大規模言語モデル入門を読んでいたのですが、その中で「メモリ効率の良いファインチューニング」という節が面白くて色々自分で試してみていたりしました。ここでは、自分の手元で文章の類似度を計算するモデルをファインチューンして作って見たので、それについて書きたいと思います。 実験環境 Ubuntu 20.04 NVIDIA RTX2080 (VRAM: 8GB) Python 3.11 実験 文章の類似度を計算するモデルを作るために、JGLUEのJSTSというデータセットを利用しました。このデータセットはHugging Face上から取得することが可能で、以下のようなカラムを持ったデータを使うことが可能です。 sentence1: 1つめの文章 sentence2: 2つめの文章 label: 文章間の類似度(0
はじめに オライリーの「入門自然言語処理」に、焼きなまし法を使った教師なし単語分割について書かれていたので、これを試す。 アプローチ 「出現単語数」+「のべ出現単語数」+「入力文の文字数(固定)」=目的関数を最小化 単語の区切り位置を温度によって変化させる(近傍探索) 温度をどんどん冷やしていき、それに伴い、変化させる区切り位置の数を減らす コード #include <iostream> #include <vector> #include <set> #include <cmath> //xorshift // 注意: longではなくint(32bit)にすべき unsigned long xor128(){ static unsigned long x=123456789, y=362436069, z=521288629, w=88675123; unsigned long t;
9月9日にChainer本が出るようです。 Chainerによる実践深層学習posted with amazlet at 16.08.31新納浩幸 オーム社 売り上げランキング: 2,884 Amazon.co.jpで詳細を見る 出版社の目次はこちら Chainerによる実践深層学習 | 理工学専門書,情報科学,知識科学・人工知能 | Ohmsha 目次を簡単にまとめたものはこちら。 1〜2章 Chainerを使う以前の基礎(Numpy、ニューラルネットについて) 3章 Chainerの基礎(Variable・links・optimizersなどの解説) 4章~5章 サンプルやAutoEncoderを実装してChainerを使って動かしてみるとこまで 6章 word2vecを通し、自然言語にNNがどのように使われているかの導入 7章 RNN、LSTM、GRUを使った自然言語への利用(言語モ
『日本語入力を支える技術 ~変わり続けるコンピュータと言葉の世界』(asin:4774149934)が発売された。PFI(株式会社Preferred Infrastructure)のなかの人が書いた本だ。 日本語入力を支える技術という本を書きました http://d.hatena.ne.jp/tkng/20120203/1328248554 以下、どうでもいいことをつらつらと。 最近、ソーシャルゲーム界隈が賑わっているのでIT系の優秀な人材がそっちに大量に流れてしまっていて、IT業界自体の空洞化が起きようとしていて本当に嘆かわしい限りである。私は自然言語処理こそが今世紀最後の錬金術だと思っているのだが、この分野はなかなか大きな進歩がないのが実状だ。 例えば、2chのまとめサイトが収益を生み出すのだから、機械によって自動的にどこかの記事のまとめ(要約etc..)を生成できれば、これが自動的に
Official髭男dismの『Cry Baby』を久しぶりに聴いてました。 いい曲〜〜! で気づいたことがあるんですけど、この歌詞、動詞多くないですか? 目視で動詞を見つけて色をつけてみました。こういう感じになるはずです。 胸ぐらを掴まれて 強烈なパンチを食らってよろけて 肩を並べうずくまった 予報通りの雨にお前はにやけて 「傷口が綺麗になる」なんて嘘をつく いつも口喧嘩さえうまく出来ないくせして 冴えない冗談言うなよ あまりのつまらなさに目が潤んだ 何度も青アザだらけで涙を 流して 流して 不安定な心を肩に預け合いながら 腐り切ったバッドエンドに抗う なぜだろう 喜びよりも心地よい痛み ずっしりと響いて 濡れた服に舌打ちしながら 腫れ上がった顔を見合って笑う 土砂降りの夜に 誓ったリベンジ Official髭男dism『Cry Baby』歌詞 めちゃくちゃ多い…… 動詞が多いと、ああな
風邪をひいてしまいました。小町さんのブログで最適化の話が出ていましたので、床に臥せりながら CList/NLPer が数理計画を勉強するにはどの本を読むべきか、ということを考えていました。 数理計画がどういった問題を扱いうるのかというところでは、松井ら『入門オペレーションズ・リサーチ』は例を挙げて平易に、数理計画の応用としての OR の要点を解説しており、入門書はこれで決定でしょう。ただし誤字脱字の類が甚だ多いため、正誤表が必須です。二冊目が難しいところですが、今野ら『整数計画法と組合せ最適化』は実践的な内容で、ソルバが中でどのように動いているか把握するのに好適です。ただし内容が少し古いです。基本的なことがわかったら藤澤ら『応用に役立つ50の最適化問題』がいいでしょう。これは最適化問題のうち商業上有益な応用を持つものが列挙されていて、解法についても解説されています。 CL/NLP に身近な
キッチン・インフォマティクス-料理を支える自然言語処理と画像処理- 原島 純,橋本 敦史/共著 (オーム社) まず題名に「おっ」と思わされたので買ってしまいました。 「食のロボット」を標榜するTechMagicのエンジニアがこのタイトルを素通りするわけにはいかないですね。著者は原島さん(クックパッド)と橋本さん(オムロンサイニックエックス)です。 世に看板だおれのエーアイ書籍が多い中、この本の内容はまったく題名通りです…自然言語処理と画像処理の技術に対して、料理や調理など食に関する応用を解説しています。どちらについても、まずはバックグラウンドとなる技術の説明を試み、次に実際の料理のアプリや関連技術について解説してます。 たとえば自然言語処理なら形態素解析、構文解析、オントロジー、といったものを解説したあと、実際のレシピ分類や検索、レシピ生成などの個別の技術について触れていきます。 画像処理
大学の研究に役に立ったものシリーズ第2弾です。 今回は、研究に関係する技術の勉強に役に立ったものを紹介したいと思います。 ちなみに、自分の研究は情報系で、研究室のテーマは自然言語処理、音声言語処理、機械学習関係でした。 あくまで自分には役に立った、ということで情報系以外の分野の人には当てはまらないことも多いと思います。 (特に今回は自分の研究分野に特化した記事になってしまっています。すいません) サービス編 研究のプログラミングにおける悲劇を無くすためのGitとテスト 武蔵野日記 大学で自然言語処理の研究をされている小町さんのブログで、ほぼ毎日分の更新があります。すごい。 自然言語処理についての話題も勉強になりましたが、それよりも大学の運営や研究者の生活について色々知ることができました。大学に通っていても大学の運営や、研究室のボスが普段何をしているのかについては意外と知る機会がないもので、
このたび、オライリー・ジャパンより、『Natural Language Processing with Transformers』の翻訳書である『機械学習エンジニアのためのTransformers』を出ることになりました。素直にタイトルを訳すと、『Transformersによる自然言語処理』のようになると思うのですが、1文字違いの本が出ていたので、このようなタイトルになっています。Amazonだと8月5日に発売のようです。表紙の鳥はゴシキセイガイインコで、オセアニアに生息しています。 『機械学習エンジニアのためのTransformers』が届きました🤗 来週発売です。 pic.twitter.com/6R2dYh7X7D— Hironsan (@Hironsan13) 2022年7月28日 本書はTransformersの開発元であるHugging Faceの開発者たちによって執筆された
イントロ近年、ビッグデータや人工知能の発展により、文化や社会を解像度高く分析する方法が提案されてきました。データ分析によって、今まで定性的に分析されてきた文化や社会が定量的に分析され、新しいわくわくするような知見がたくさん出てきています。 文化や社会の分析には、テキスト解析の手法が主に用いられていますが、最近、画像解析の手法の発展も著しく、今後は画像を利用した分析も広がっていくように思います。その中でも、DALL·Eと呼ばれる人工知能の性能は凄まじく、文化や社会を解き明かす新しい分析ツールになりうる可能性を秘めています。 DALL·Eは、文章を入力すると画像を生成してくれる人工知能です。この記事上部の画像は、DALL·Eに「日本のウェルビーイングをテーマにしたピカソ風のアート」を入力して、描いてもらったものです。画像のクオリティはとても高く、人間が描いたのか、人工知能が描いたのかの見極めが
自然言語処理を学ぶ推薦書籍を紹介します。2025年3月現在、自然言語処理を取り巻く状況が大きく変わっているため、ここに書かれている情報は極めて古く、記録のために残しておきますが、新しく自然言語処理の勉強をしようという人のための参考にはなりません。 2021年03月時点では、自然言語処理を勉強したい理工系の学生・エンジニアの人は、以下の本を推薦します。 (概要)自然言語処理(放送大学出版) (理論)言語処理のための機械学習入門+深層学習による自然言語処理 (実装)Python 機械学習プログラミング 第3版 自然言語処理を勉強したい、非理工系・非エンジニアの人には、以下の本を推薦します。 (数式なし)自然言語処理の基本と技術 (数式あり)自然言語処理(放送大学出版) オライリーから出ている「入門 自然言語処理」は特殊な本(詳しい人がこれを使ってレクチャーしてくれるならともかく、独習に向いてい
最近何冊か出たので科研費で買ってみた。 人文・社会科学のためのテキストマイニング 作者: 松村真宏,三浦麻子出版社/メーカー: 誠信書房発売日: 2009/04/24メディア: 単行本購入: 6人 クリック: 79回この商品を含むブログ (10件) を見る Rによるテキストマイニング入門 作者: 石田基広出版社/メーカー: 森北出版発売日: 2008/12/16メディア: 単行本(ソフトカバー)購入: 18人 クリック: 250回この商品を含むブログ (29件) を見る テキストデータの統計科学入門 作者: 金明哲出版社/メーカー: 岩波書店発売日: 2009/04/28メディア: 単行本購入: 2人 クリック: 70回この商品を含むブログ (12件) を見る 以前は、概論的過ぎて使えなかったり、いい加減だったりした本が多かったが、この3冊はいずれも内容もしっかりしており、実践的なのでおす
またまた引き続き青いトピックモデル本から。今回は Author Topic Model を導出して実装してみる。とりあえずこのシリーズは一旦今回で最後。 トピックモデル (機械学習プロフェッショナルシリーズ) 作者: 岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る 出典は以下の論文。これまで実装してきたモデルと比べるとずば抜けて有名っぽい。 https://arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf Author Topic Model Author Topic Model (ATM) は文書に付加情報として著者情報が付いているデータのモデリングをするのに使われる*1。一つの文書に複数(一人以上)の著者がいるときに、文書中のそれぞれの単語についてどの著者
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く