sato_susumuのブックマーク / 2021年10月5日

sato_susumu id:sato_susumu

2021年10月5日のブックマーク (5件)

プレゼンテーション：AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API | PyCon JP 2017 in TOKYO
PythonとMeCab+NEologdを使用した日本語形態素解析環境は様々な場面で広く利用されていますが，容量などサイズも比較的大きくなりがちで，サーバレス環境のような気軽な環境で動作させることは容易ではありません．本トークではAWSのサーバレスサービスであるLambdaを使用して日本語形態素解析環境をPython + MeCab/NEologd + AWS Lambdaで作成する際に有効なTipsを中心に紹介します． PythonとMeCab+NEologdを使用した日本語形態素解析環境は自然言語処理やテキストマイニングなど様々な場面で広く利用されています．一方でこれらの環境を開発環境と合わせて使用するためにはOSや文字コードなどの依存関係でセットアップやデプロイが面倒なことも多く，Docker化しても辞書のサイズが大きくコンテナが肥大化していくなど，簡単な日本語解析を行えれば良いよう
sato_susumu 2021/10/05
serverless

nlp
リンク
自然言語処理のサービスのAWS上での構成を考えてみる - Qiita
目標 AWSサービスを効率的に使って、自然言語処理に関するサービスを構築する。可能な限りローコストを目指す（特にアクセスしていない時の料金を減らす）。もちろん高可用性構成。マルチテナント構成を取る BERTを使って類似文章検索を行う。転置インデックスを使用した全文検索を行いたい（単語での検索など）。ElasticSearchは値段高いのでパス。前提今回は、構成の考察。検証済みの部分もあり、未検証部分もあり。実際の製品がこの構成を取っている事を示すものでは無いです（まだ検証段階です）。その為、この構成を取った事によって何か問題が発生するかもしれない事はご了承下さい。技術要件整理データ学習済み基本モデル最近流行りの転移学習向けに、公開されている学習済みデータを使用する。サイズ的には1~数GBを想定。ファインチューニング用コーパスデータ転移学習でのファインチューニング
sato_susumu 2021/10/05
serverless

nlp
リンク
Sentencepiece : ニューラル言語処理向けトークナイザ - Qiita
少し時間が経ってしまいましたが、Sentencepiceというニューラル言語処理向けのトークナイザ・脱トークナイザを公開しました。MeCabやKyTeaといった単語分割ソフトウエアとは趣旨や目的が異なるソフトウェアですので、少し丁寧にSentencepieceの背景、応用、実験結果等をお話したいと思います。サブワードニューラル言語処理の中心となる要素技術にLSTM (RNN)があります。テキスト(トークン列)を低次元のベクトルに符号化したり、ベクトルからテキストを復号化したり、その応用範囲は多岐にわたります。ニューラル機械翻訳 (NMT) は、LSTMによる符号化・復号化を組み合わせて翻訳を行います。 ↓↓↓↓↓↓↓ あなたの記事の内容 NMTのアーキテクチャは従来法と大きく異なりますが、入出力はこれまでと同様、なにかしらのトークン列です。どのような列でもよいのですが、慣習的に単語列が
sato_susumu 2021/10/05
nlp

Sentencepiece
リンク
GitHub - yoheikikuta/bert-japanese: BERT with SentencePiece for Japanese text.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
sato_susumu 2021/10/05
“SentencePiece”

BERT

nlp
リンク
Twitter日本語評判分析データセット
ツイートの評判情報をクラウドソーシングにより分析し，分析結果を公開しています．データのダウンロードデータはこちらです．データはbz2で圧縮されています．ツイートの本文は含まれていません． 2015年から2016年ごろのツイートを対象にしています．データ内容携帯電話などのツイートを中心に，534,962件のツイートがの分析が行われています．このツイート量は，他のデータセットと比較しても多いです．作成者の知る限り最も規模が大きく，種類数の大きなデータセットです．最低 4 名以上の作業者により評価を行い，多数決を行った結果です．だいたい5名以上の作業者により評価を行っています．データの構造CSV ファイルで記述しています．列番号は以下の内容に該当します．ツイートのIDです．10000から始まる番号です．ジャンルIDです．次のジャンルがあります．10000: エクスペリア，Xperi
sato_susumu 2021/10/05
データセット

nlp

dataset
リンク
- 2021年10月6日
- 2021年10月5日
- 2021年10月4日