タグ

2022年8月26日のブックマーク (5件)

  • huggingfaceでの自然言語処理事始めBERT系モデルの前処理方法 - Qiita

    はじめに 自然言語処理の学習では利用するモデルに応じて文章中の単語のトークン化など様々な前処理を行う必要があります。今回は、自然言語処理で有名なhuggingfaceのライブラリを利用することでモデル依存の工程をなるべく少なく前処理を行う方法を紹介したいと思います。なお、記事は使用する機械学習のフレームワークとしてPyTorchを想定した記事となります。 利用するデータセット 今回はkaggleのSuperheroes NLP Dataset(ライセンス:CC0: Public Domai)(英語文書データ)を利用して前処理を行う例を主に紹介していきます。なお今回は上記のデータセット全てではなく先頭10件のデータを用います(上記のデータセットの文書のは一部NaNが存在するため)。 データセットの読み込み まず、最初にhuggingfaceのライブラリを用いたデータセットに読み込みについて

    huggingfaceでの自然言語処理事始めBERT系モデルの前処理方法 - Qiita
  • 精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

    DeepLは民間企業が開発したツールで、TexTraは公的機関であるNICTが開発したものなので、根的な役割から違います。次に利用面で比べると、DeepLにユーザーログインは必要ありませんが、TexTraはログインが必要です。ログインにはアカウントが必要なので、アカウント作成やログインを面倒に感じてTexTraを利用していない方もいることでしょう。 けれどログインを必須にしないと、まれに大量のデータを一気に翻訳させてサーバをパンクさせてしまう人が現れることもあるので、それを防ぐためにログインを必要とする設計にし、意図的に利用者を制限しているんです」(同) TexTraが収集している翻訳データの出自も、他のツールとは異なる部分があるという。 「世間のさまざまな企業は、各分野に特化した独自の翻訳データを持っていることが多いのですが、NICTはそれらのデータを寄付してもらって高精度の翻訳システ

    精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ
  • AWSでサーバーレス設計を考える時の手引き書 - Qiita

    はじめに サーバーレスに触れて数年が立ちました。 そろそろ人にある程度説明ができるレベルの知識と経験が備わったような気もするので、年末なのでまとめてみました。 サーバーレス気になっているけれども、という人に少しでもためになればいいなーと思います。 サーバーレス基礎 皆さん、サーバーレス設計という話を聞いたことはあるでしょうか? まずサーバーレスについて説明しますが、世の中にはたくさん解説記事があるのでそちらも適宜参照ください。 サーバーレスでも実際にはサーバーは存在する サーバーレスとは開発者がサーバーのことを意識しなくてもよい、ということ Function as a serviceに代表されるように、あるプログラムの実行環境を提供するが、プログラムの動作環境は開発者は意識する必要はない、というイメージ 恐らく、AWS Lambdaが一番理解しやすいと思います。 AWS Lambdaではプ

    AWSでサーバーレス設計を考える時の手引き書 - Qiita
  • サーバーレス LAMP スタックとは何か

    はじめに 「サーバーレス LAMP スタック」という聞き慣れない単語をたまたま見かけて気になったので調べてみました。 サンプルとして下記のリポジトリに一通り作ったもの置いてますので、もし気になった方はそちらをご覧ください。 サーバーレス LAMP スタックの起源 従来の LAMP スタック まずは、サーバーレス LAMP スタックを理解するために、サクッと従来の LAMP スタックをおさらいします。「そんなのいらならから、早く結論だけ教えて!」という方は サーバーレス LAMP スタックの構成 までスキップいただいて構いません。 従来の LAMP スタックとは、動的な Web アプリケーションを構築するためのソフトウェアスタックです。Linux、Apache、MySQL(MariaDB)、PHP(PerlPython) の頭文字を取ってできた造語です。それらはどれもオープンソースとして提

    サーバーレス LAMP スタックとは何か
  • 接続機器(マイク/スピーカー/カメラ)テスト

    お使いのブラウザはサポートされていません。 サポートされているブラウザは以下の通りです。 Firefox Google Chrome 接続機器(マイク/スピーカー/カメラ)テスト WebRTC技術を採用したネオジャパン製品・機能がご利用中のシステム環境でお使いいただけるかどうか、その目安をこちらのページにてご確認いただけます。 お使いのクライアント端末からhttpsでアクセスしてご利用ください。 こちらのページを利用する前に、以下の項目をご確認ください。 マイクが内蔵されている、もしくは正しくパソコンに接続されている。 スピーカーが内蔵されている、もしくは正しくパソコンに接続されている。 カメラが内蔵されている、もしくは正しくパソコンに接続されている。 接続している機器は、それぞれのメーカーから提供されている最新のドライバをご利用ください。 接続機器のテストを行う時は他のソフトウェアを起動