Sign in
![Google Colab](https://cdn-ak-scissors.b.st-hatena.com/image/square/b3cf727fb43a38982c4fc02e1c51ebc0090e85a5/height=288;version=1;width=512/https%3A%2F%2Fcolab.research.google.com%2Fimg%2Fcolab_favicon_256px.png)
Common Crawl maintains a free, open repository of web crawl data that can be used by anyone.Common Crawl is a 501(c)(3) non–profit founded in 2007. We make wholesale extraction, transformation and analysis of open web data accessible to researchers.Overview Over 250 billion pages spanning 15 years.Free and open corpus since 2007.Cited in over 10,000 research papers.3–5 billion new pages added ea
IETF の OAuth Working Groupは、アイデンティティ分野における標準の作成と改良に熱心に取り組んでいます。この記事では JSON Web Token (JWT) の最新ベスト プラクティスについて書かれた直近のドラフトについて取り上げます。対象のドラフトでは、JWT の使用に際して陥りがちな落とし穴や、よく見られる攻撃方法に加えて、そうした問題に対する軽減策の実施方法を紹介していますので、ぜひご一読ください。 "JWT を標的とする特に一般的な攻撃方法と、具体的な保護対策が紹介されています" はじめにJSON Web Token (JWT) 仕様は、2 者間でのクレーム (属性情報) の伝送を目的とした、JSON ベースの形式について規定したオープン標準 (RFC 7519)です。 JWT を補完する標準として、JSON Web Key (RFC 7517), JSON
RFC 8725 JSON Web Token Best Current Practices Abstract JSON Web Tokens, also known as JWTs, are URL-safe JSON-based security tokens that contain a set of claims that can be signed and/or encrypted. JWTs are being widely used and deployed as a simple security token format in numerous protocols and applications, both in the area of digital identity and in other application areas. This Best Current
ritou です。 今回は RFC 8725 JSON Web Token Best Current Practices を紹介します。 みんな大好き JWT (JSON Web Token) の BCP ときたらチェックせずにはいられないでしょう。 概要 JWTは 署名/暗号化が可能な一連のクレームを含む、URLセーフなJSONベースのセキュリティトークン です JWTは、デジタルアイデンティティの分野および他のアプリケーション分野の両方の多数のプロトコルおよびアプリケーションにて、シンプルなセキュリティトークンフォーマットとして広く使用/展開されています このBCPの目的は、JWTの確実な導入と展開につながる実行可能なガイダンスを提供することです ということで、何かのフレームワークでもプロトコルでもなければJWTを使ったユースケース考えたよって話でもなく、JWTを導入する上で基本的な部
On this page, we will have a closer look at tokenization. As we saw in the preprocessing tutorial, tokenizing a text is splitting it into words or subwords, which then are converted to ids through a look-up table. Converting words or subwords to ids is straightforward, so in this summary, we will focus on splitting a text into words or subwords (i.e. tokenizing a text). More specifically, we will
1. トークナイザー「トークナイザー」は、「テキスト」を「トークン」に分割し、それを「ID」に変換する機能を提供します。「テキスト」はそのままではニューラルネットワークで処理できないため、IDに変換する必要があります。 2. トークン化の方法テキストのトークン化は見た目以上に大変な作業で、トークン化の方法は複数あります。 ・単語 ・文字 ・サブワード2-1. 単語によるトークン化◎ スペースによるトークン化 一番簡単なトークン化の方法は、「スペースによるトークン化」です。 "Don’t you love 🤗 Transformers? We sure do." ↓ ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."] これは良い第1歩ですが、"Transformers? " や "do. " というトーク
AbstractThis paper describes SentencePiece, a language-independent subword tokenizer and detokenizer designed for Neural-based text processing, including Neural Machine Translation. It provides open-source C++ and Python implementations for subword units. While existing subword segmentation tools assume that the input is pre-tokenized into word sequences, SentencePiece can train subword models dir
前回はテキストマイニングの手法と OSS を用いた実践について紹介しました。今回は、Google の T5(Text-to-Text Transfer Transformer) によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。 1. はじめに 本記事では Google の T5(Text-to-Text Transfer Transformer) 1によるテキスト生成について、学習や推論のコード例と実験結果を交えてご紹介します。実験としては livedoor ニュースコーパス2での文章分類、やさしい日本語コーパス3及びやさしい日本語拡張コーパス4を用いたやさしい日本語変換を行いました。今回も Google Colaboratory で動かすことを想定したコードスニペットを入れていきますので、実際に動かしたり対象を変えてみたりして試して頂けると良いかと思います
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く