sato_susumuのブックマーク / 2022年8月26日

huggingfaceでの自然言語処理事始めBERT系モデルの前処理方法 - Qiita

はじめに自然言語処理の学習では利用するモデルに応じて文章中の単語のトークン化など様々な前処理を行う必要があります。今回は、自然言語処理で有名なhuggingfaceのライブラリを利用することでモデル依存の工程をなるべく少なく前処理を行う方法を紹介したいと思います。なお、本記事は使用する機械学習のフレームワークとしてPyTorchを想定した記事となります。利用するデータセット今回はkaggleのSuperheroes NLP Dataset(ライセンス：CC0: Public Domai)（英語文書データ）を利用して前処理を行う例を主に紹介していきます。なお今回は上記のデータセット全てではなく先頭10件のデータを用います(上記のデータセットの文書のは一部NaNが存在するため)。データセットの読み込みまず、最初にhuggingfaceのライブラリを用いたデータセットに読み込みについて

sato_susumu 2022/08/26

リンク

精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

DeepLは民間企業が開発したツールで、TexTraは公的機関であるNICTが開発したものなので、根本的な役割から違います。次に利用面で比べると、DeepLにユーザーログインは必要ありませんが、TexTraはログインが必要です。ログインにはアカウントが必要なので、アカウント作成やログインを面倒に感じてTexTraを利用していない方もいることでしょう。けれどログインを必須にしないと、まれに大量のデータを一気に翻訳させてサーバをパンクさせてしまう人が現れることもあるので、それを防ぐためにログインを必要とする設計にし、意図的に利用者を制限しているんです」（同） TexTraが収集している翻訳データの出自も、他のツールとは異なる部分があるという。「世間のさまざまな企業は、各分野に特化した独自の翻訳データを持っていることが多いのですが、NICTはそれらのデータを寄付してもらって高精度の翻訳システ

sato_susumu 2022/08/26

翻訳

リンク

AWSでサーバーレス設計を考える時の手引き書 - Qiita

はじめにサーバーレスに触れて数年が立ちました。そろそろ人にある程度説明ができるレベルの知識と経験が備わったような気もするので、年末なのでまとめてみました。サーバーレス気になっているけれども、という人に少しでもためになればいいなーと思います。サーバーレス基礎皆さん、サーバーレス設計という話を聞いたことはあるでしょうか？まずサーバーレスについて説明しますが、世の中にはたくさん解説記事があるのでそちらも適宜参照ください。サーバーレスでも実際にはサーバーは存在するサーバーレスとは開発者がサーバーのことを意識しなくてもよい、ということ Function as a serviceに代表されるように、あるプログラムの実行環境を提供するが、プログラムの動作環境は開発者は意識する必要はない、というイメージ恐らく、AWS Lambdaが一番理解しやすいと思います。 AWS Lambdaではプ

sato_susumu 2022/08/26

serverless

リンク

サーバーレス LAMP スタックとは何か

はじめに「サーバーレス LAMP スタック」という聞き慣れない単語をたまたま見かけて気になったので調べてみました。サンプルとして下記のリポジトリに一通り作ったもの置いてますので、もし気になった方はそちらをご覧ください。サーバーレス LAMP スタックの起源従来の LAMP スタックまずは、サーバーレス LAMP スタックを理解するために、サクッと従来の LAMP スタックをおさらいします。「そんなのいらならから、早く結論だけ教えて！」という方はサーバーレス LAMP スタックの構成までスキップいただいて構いません。従来の LAMP スタックとは、動的な Web アプリケーションを構築するためのソフトウェアスタックです。Linux、Apache、MySQL(MariaDB)、PHP(Perl、Python) の頭文字を取ってできた造語です。それらはどれもオープンソースとして提

sato_susumu 2022/08/26

serverless

リンク

接続機器（マイク／スピーカー／カメラ）テスト

お使いのブラウザはサポートされていません。サポートされているブラウザは以下の通りです。 Firefox Google Chrome 接続機器（マイク／スピーカー／カメラ）テスト WebRTC技術を採用したネオジャパン製品・機能がご利用中のシステム環境でお使いいただけるかどうか、その目安をこちらのページにてご確認いただけます。お使いのクライアント端末からhttpsでアクセスしてご利用ください。こちらのページを利用する前に、以下の項目をご確認ください。マイクが内蔵されている、もしくは正しくパソコンに接続されている。スピーカーが内蔵されている、もしくは正しくパソコンに接続されている。カメラが内蔵されている、もしくは正しくパソコンに接続されている。接続している機器は、それぞれのメーカーから提供されている最新のドライバをご利用ください。接続機器のテストを行う時は他のソフトウェアを起動

sato_susumu 2022/08/26

リンク

はてなブックマーク

タグ

2022年8月26日のブックマーク (5件)

huggingfaceでの自然言語処理事始めBERT系モデルの前処理方法 - Qiita

精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

AWSでサーバーレス設計を考える時の手引き書 - Qiita

サーバーレス LAMP スタックとは何か

接続機器（マイク／スピーカー／カメラ）テスト

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス