KoichiYasuokaのブックマーク - はてなブックマーク

SwallowのLlamaForCausalLMに常用漢字を追加するには - Qiita

私(安岡孝一)の12月21日の記事にも書いたが、Swallowのトークナイザは常用漢字2136字のうち51字をサポートしておらず、これら51字はバイトフォールバックしてしまう。この問題に対し昨日の記事では、Replaceを使って「𠮟」「塡」「剝」「頰」の4字を救う手を示したが、これだと抜本的解決にならない。抜本的解決としては、これら51字のトークンをSwallowのLlamaForCausalLMモデルそれ自体に追加して、追加したトークンで追加学習をおこなうしかない。端的には、こんな感じ。 #! /usr/bin/python3 import urllib.request,json from transf ormers import LlamaTokenizerFast,LlamaForCausalLM,DataCollatorForLanguageModeling,TrainingArg

KoichiYasuoka 2023/12/30

リンク

SwallowのLlamaTokenizerFastに常用漢字「𠮟」「塡」「剝」「頰」を追加するには - Qiita

12月21日の記事の続きだが、Swallowのトークナイザは常用漢字2136字のうち51字をサポートしておらず、これら51字はバイトフォールバックしてしまう。ただ、第3水準漢字の「𠮟」「塡」「剝」「頰」については、代わりに「叱」「填」「剥」「頬」で事前学習されているようだ。Swallow-7b-hfで確かめてみよう。 >>> from transf ormers import LlamaTokenizerFast >>> tkz=LlamaTokenizerFast.from_pretrained("tokyotech-llm/Swallow-7b-hf") >>> print(tkz.convert_ids_to_tokens(sum(tkz(["𠮟責","頰","剝離","装塡"])["input_ids"],[]))) ['<s>', '▁', '<0xF0>', '<0xA0>'

KoichiYasuoka 2023/12/29

リンク

富岳のPyTorch-1.7.0でJGLUEのJCommonSenseQAを動かすには - Qiita

#! /bin/bash #PJM -L rscgrp=small #PJM -L elapse=4:00:00 #PJM -L node=1 #PJM -j #PJM -S G=`id | sed 's/^.*gid=[0-9]*($[^)]*$).*$/\1/'` set `ls -d /vol*/$G /vol*/data/$G` $HOME export PYTHONUSERBASE=$1/jglue export PATH=/home/apps/oss/PyTorch-1.7.0/bin:$PYTHONUSERBASE/bin:$PATH export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/home/apps/oss/PyTorch-1.7.0/lib64 export HF_HOME=$PYTHONUSERBASE export TMPDI

KoichiYasuoka 2023/12/28

リンク

富岳のPyTorch-1.7.0でtransformersを動かすには - Qiita

スーパーコンピュータ「富岳」のファーストタッチオプションが当たったので、まずは富岳でtransf ormersを動かしてみることにした。現時点の富岳にはPyTorch-1.7.0がインストールされているので、その上にtransf ormersを乗せてみよう。 #! /bin/bash #PJM -L rscgrp=small #PJM -L elapse=1:00:00 #PJM -L node=1 #PJM -j #PJM -S G=`id | sed 's/^.*gid=[0-9]*($[^)]*$).*$/\1/'` set `ls -d /vol*/$G /vol*/data/$G` $HOME export PYTHONUSERBASE=$1/pytorch1.7.0 export PATH=/home/apps/oss/PyTorch-1.7.0/bin:$PYTHONUSER

KoichiYasuoka 2023/12/27

リンク

transformers向け系列ラベリングクラスLlamaForTokenClassificationを書いてみた - Qiita

一昨昨日の記事の続きだが、Swallowを使って系列ラベリングをおこなうべく、LlamaForTokenClassificationを書いてみた。 from typing import List, Optional, Tuple, Union import torch from torch import nn from transf ormers.modeling_outputs import TokenClassifierOutput from transf ormers.file_utils import add_start_docstrings_to_model_forward from transf ormers.models.llama.modeling_llama import LlamaModel, LlamaPreTrainedModel, LLAMA_INPUTS_DOCSTR

KoichiYasuoka 2023/12/24

リンク

Swallow-70b-instruct-hfはパソコンのキーボードを知っているのか - Qiita

一昨日・昨日の記事の続きだが、Swallow-70b-instruct-hfに「パソコンのキーボードは，なぜABC順・五十音順ではないのですか」と尋ねてみることにした。ただ、70bモデルだとメモリが400GBほど必要なはずなのだけど、そんな凄いマシンは私(安岡孝一)の手元には無い。仕方ないのでaccelerateをインストールして、device_map="auto"の助けを借りることにした。プログラムはこんな感じ。 #! /usr/bin/python3 from transf ormers import pipeline tgn=pipeline("text-generation","tokyotech-llm/Swallow-70b-instruct-hf",max_new_tokens=128,device_map="auto") nlp=lambda txt:tgn(f"以下に、ある

KoichiYasuoka 2023/12/23

リンク

Swallow-7b-instruct-hfはパソコンのキーボードを知っているのか - Qiita

#! /usr/bin/python3 from transf ormers import pipeline tgn=pipeline("text-generation","tokyotech-llm/Swallow-7b-instruct-hf",max_new_tokens=128) nlp=lambda txt:tgn(f"以下に、あるタスクを説明する指示があります。リクエストを適切に完了するための回答を記述してください。\n\n### 指示:{txt}\n\n### 応答:",do_sample=True)[0]["generated_text"] print(nlp("パソコンのキーボードは，なぜABC順・五十音順ではないのですか")) 実行してみたところ、私(安岡孝一)の手元では以下の結果が出力された。以下に、あるタスクを説明する指示があります。リクエストを適切に完了するための

KoichiYasuoka 2023/12/22

リンク

Swallowは『雪国』の冒頭をどうトークナイズするのか - Qiita

日本語に強い大規模言語モデル「Swallow」が12月19日に公開された。私(安岡孝一)にとっても、うれしいクリスマス・プレゼントだ。東工大ニュースによれば、以下のような特長があるらしい。研究チームはLlama 2のトークナイザに16,000件の日本語のトークンを追加することで、日本語テキストのトークン長を56.2%に削減した。すばらしい。Swallow-7b-hfを、ちょっと試してみよう。 >>> from transf ormers import AutoTokenizer >>> tkz=AutoTokenizer.from_pretrained("tokyotech-llm/Swallow-7b-hf") >>> print(tkz.convert_ids_to_tokens(tkz("国境の長いトンネルを抜けると雪国であった。","夜の底が白くなった。")["input_ids

KoichiYasuoka 2023/12/21

リンク

NDL古典籍OCR用RoBERTa-small ver.2は「いと小さく[MASK]ゆるはいとをかし」の[MASK]に何を埋めてくるのか | yasuokaの日記 | スラド

2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transf ormers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transf ormers import pipeline f

KoichiYasuoka 2023/11/21

リンク

アイヌ語の「イワイサルㇱペ」は「虎」なのか「オオカミ」なのか「六尾獣」なのか | yasuokaの日記 | スラド

一昨昨日の日記に関連して、アイヌ語の「イワイサルㇱペ」を調べていたところ、B・ピウスツキ『樺太アイヌの言語と民話についての研究資料<26>病弱な者でも有能な憑き神によって開運する由来話』(創造の世界, 第77号 (1991年2月), pp.138-145)に、以下の文章を見つけた(p.140)。ネヤイケヘそうしたら(ちょうど、そこへ) アンポニウネぼくの年下のホㇱキラムフ兄さんがキラアニエㇸマヌ逃げてやってきた。オーポニ (よく見ると)その後をイワイサルㇱカムイ六尾をもつ神(という魔性のオオカミ)がアンホㇱキラムフぼくの兄さんをノㇱパ追いかけていた。アノㇱキラムフぼくの兄さんをアネソㇹキぼくは(わきに手早く)よけ(てやり過ごし)た。(夢中に

KoichiYasuoka 2023/11/17

リンク

Universal Dependencies 2.13がリリース | yasuokaの日記 | スラド

Universal Dependencies 2.13がリリースされた、との連絡をもらった。半年前のUniversal Dependencies 2.12と較べて、Classical Armenian、Georgian、Haitian Creole、Highland Puebla Nahuatl、Macedonian、Middle French、Vepsが増えており、148の言語にまたがるツリーバンクとなっている。私(安岡孝一)個人としては、deplacyでМакедонскиを扱う際に精度が上がらず苦労したので、UD_Macedonian-MTBによるマケドニア語サポートはうれしい限りである。また、現代中国語(簡化字)はUD_Chinese-BeginnerとUD_Chinese-PatentCharが、イタリア語はUD_Italian-Oldが追加されるなど、どんどん拡大が続いている。

KoichiYasuoka 2023/11/16

リンク

アイヌ語に「虎」は無いのか | yasuokaの日記 | スラド

思うところあって、アイヌ語で「虎」をどう言うのか調べていたところ、Михаил Михайлович Добротворский『Аинско-русскій словарь』(Казань: Университецкая типография, 1875)の語彙番号1519に「虎」を見つけた。

KoichiYasuoka 2023/11/14

リンク

『蝦夷見聞記』の「ニヲシケボイ〱チブカルハトツブウヱクシハヲシケカモイヲマレハモムアンベタンコタンシレバヤッカイ」をUDで読む | yasuokaの日記 | スラド

10月21日の日記の続きだが、秦檍磨(村上島之允)『蝦夷見聞記』(北海道大学附属図書館旧記/0061)の5枚目画像には「ニヲシケボイ〱チブカルハトツブウヱクシハヲシケカモイヲマレハモムアンベタンコタンシレバヤッカイ」というカタカナ書きのアイヌ語が含まれている。私(安岡孝一)が読む限り「ni uske epoypoye cip karpa tup u-e-kuspa uske kamuy omarepa mom an pe tan kotan sir epa yakka」のようなので、ざっとUniversal Dependenciesで書いてみた。 # text = ニヲシケボイ〱チブカルハトツブウヱクシハヲシケカモイヲマレハモムアンベタンコタンシレバヤッカイ 1 ニ ni NOUN 名詞 _ 2 nmod

KoichiYasuoka 2023/11/02

リンク

Carpenters『Touch Me When We're Dancing』の間奏でTom Scottは何を吹いているのか | yasuokaの日記 | スラド

思うところあって、Carpenters『Touch Me When We're Dancing』のブッ飛んだ間奏のコード進行を耳コピし直してみた。ただ、この部分がト長調の中でいかにブッ飛んでるかを示すために、全体のコード進行をざっと見てみることにする。 Gmaj7 Em7 Cmaj7 Am7 Am7onD Gmaj7 Em7 Cmaj7 Am7 Am7onD Gmaj7 Em7 Cmaj7 Gmaj7 Gmaj7 Em7 Cmaj7 Gmaj7 Am7 G6 Cmaj7

KoichiYasuoka 2023/10/29

リンク

象潟版『蝦夷方言藻汐草』の「ヱナウ」と別海版『蝦夷方言藻汐草』の「イナウ」 | yasuokaの日記 | スラド

本田優子「象潟に伝存する『蝦夷方言藻汐草』について」(雄波郷, 第7号(2013年3月), pp.1-8)が指摘するとおり、象潟郷土資料館蔵『蝦夷方言藻汐草』は他の版とは大きく異なっている。運よく象潟版『蝦夷方言藻汐草』の「ヱナウ」のページを見ることができたので、アイヌ語の項目をざっと書き写した。ヱカユプ　プシヱナウシトヱナウヱナウキケキケパラセキケツノヱヱナウシヤンカムイタグシヤルイシヤンマキリ　イヒラケマコルシントコ　ホツカイシヨロ　ホケカ子

KoichiYasuoka 2023/10/28

リンク

蝦夷方言『藻汐草』チヤーラケのアイヌ語に付与された漢字の傍訓 | yasuokaの日記 | スラド

上原熊次郎・阿部長三郎『藻汐草』(白虹斉[最上徳内]、文化元年)の「チヤーラケ」には、カタカナでアイヌ語が書かれており、右横に漢字で傍訓が付与されている。最初の「イカラク子クル」には「姪人」という傍訓があるので「e=karku ne kur」だろうというのが分かるし、次の「子フイタウン」には「何云」という傍訓があるので「nep itak un」だろうと想像がつく。「トノトシリカ」には「宴中」という傍訓があるので「tónoto sir ka」だと思われるのだが、さてその次の「ワイヌンヌ」に「慮」って何だろう。そのまた次の「クケナンコラ」に「為焉」は、たぶん「ku=ki nankor a」あたりだと思う。悩みつつ過去の論文を探してみたところ、佐藤知己『彰考館旧蔵アイヌ語テキスト「蝦夷チヤランケ並浄瑠理言」について』(北海道大学文学研究科紀要, 第109号(2003年2月), pp.31-58

KoichiYasuoka 2023/10/22

リンク

『蝦夷見聞記』の「夷人三ヶ月を見て月の初を知る」をUniversal Dependenciesで読む | yasuokaの日記 | スラド

9月25日の日記の続きだが、秦檍磨(村上島之允)『蝦夷見聞記』(北海道大学附属図書館旧記/0061)を読んでいたところ、6枚目画像に「夷人三ヶ月を見て月の初を知る」を見つけた。アイヌ語と和文が並行して書かれている部分を、Universal Dependenciesで見てみよう。 # text = ニシハタンベヌカラタンドヲロワノアシリチユフヌカル 1 ニシハ nispa NOUN 名詞 _ 4 nsubj _ _ 2 タン tan DET 連体詞 _ 3 det _ SpaceAfter=No 3 ベ pe NOUN 形式名詞 _ 4 obj _ SpaceAfter=No 4 ヌカラ nukar VE

KoichiYasuoka 2023/10/21

リンク

李志恒『漂舟録』に出てくる「악기」はアイヌ語なのか | yasuokaの日記 | スラド

一昨日・昨日の日記の読者から、中村和之「李志恒『漂舟録』にみえるアイヌ語について」(北海道民族学, 第3号(2007年3月), pp.22-28)を読んでみてほしい、との御連絡をいただいた。何でも1696年頃のアイヌ語が、ハングルで書かれているらしい。七月初一日發船。一時歸現於松前太守前。余在船中日、與書示探識其言語物情而不盡詳知。問蝦夷通事者曰、蝦夷等마즈마이云者何言耶。曰謂松前稱也。又問앙그랍애何耶。曰平安也。빌기의何也。美也。악기何也。水也。아비何也。火也。憑以倭語則大相不同。 [中略] まず、火とされている아비（a-bi）ないし阿比（a-bi）は、アイヌ語のapeのことで、意味は「火」である。この比定は確実なものといえよう。つぎに、水とされている악기（ak-gi）ないし臥可（wa-ga）は、アイヌ語のwakkaのことで、意味は「水」である。wa-gaは発音が近いが、ak-giでは

KoichiYasuoka 2023/10/17

リンク

『アカントウンコタン』におけるハングル表記のアイヌ語 | yasuokaの日記 | スラド

잇소로레. 여러분 어서 오십시오. 국립아이누민족박물관 제4회 테마 전시 ≪지역을 통해 본 아이누 문화전: 아칸토 운 코탄 ― 아칸 호반의 아이누 문화 ― ≫를 개최합니다. という文章を見つけた。最初の行は「イㇱソロレ。」に読める。とすると「아칸토 운 코탄」の部分は「アカントウンコタン」だろう。さて、これ、ハングル表記のアイヌ語っていう理解でいいんだろうか。それとも、カタカナ表記のアイヌ語をハングルに転写した、と考えるべきなんだろうか。

KoichiYasuoka 2023/10/16

リンク

『イコㇿウエカリレ』におけるハングル表記のアイヌ語 | yasuokaの日記 | スラド

『イコㇿウエカリレ』(国立アイヌ民族博物館, 2022年9月17日)の04ページを読んでいたところ、妙なハングルの文に出くわした。 이란카랍테. 여러분 어서 오십시오. 국립아이누민족박물관 제5회 특별 전시「이콜 우에카리레 아이누 자료를 컬렉션하다」를 개최합니다. 最初の行は「イランカラㇷ゚テ。」に読める。とすると「이콜 우에카리레 아이누」の部分は「イコㇿウエカリレアイヌ」だろう。うーむ、これ、ハングル表記のアイヌ語っていう理解でいいんだろうか。それとも、カタカナ表記のアイヌ語をハングルに転写した、と考えるべきなんだろうか。

KoichiYasuoka 2023/10/15

リンク

はてなブックマーク

タグ

KoichiYasuokaのブックマーク (2,539)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス