[B! NLP] [2ページ] incepのブックマーク

incep id:incep

NLPに関するincepのブックマーク (312)

GLUE Benchmark
The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems.
incep 2021/05/19
language

nlp

benchmark
リンク
CC-100: Monolingual Datasets from Web Crawl Data
This corpus is an attempt to recreate the dataset used for training XLM-R. This corpus comprises of monolingual data for 100+ languages and also includes data for romanized languages (indicated by *_rom). This was constructed using the urls and paragraph indices provided by the CC-Net repository by processing January-December 2018 Commoncrawl snapshots. Each file comprises of documents separated b
incep 2021/05/19
nlp

dataset

corpus
リンク
CCNetとCCMatrixについて - データナード
incep 2021/05/19
"CCNetとは、言語を識別しながらCommon Crawlからモノリンガルコーパスを生成するFacebook Researchのツールです。一方、CCMatrixは「CCNetによって生成されたコーパスからパラレルセンテンスを抽出する」"

corpus

nlp
リンク
GitHub - rinnakk/japanese-pretrained-models: Code for producing Japanese pretrained models provided by rinna Co., Ltd.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
incep 2021/05/13
japanese

gpt

dl

nlp
リンク
形態素解析器Sudachiの「辞書」はどのように作られているか: 複数の分割単位を例として
これは、Sudachi開発元であるワークス徳島NLPの末席に連なっていた筆者による、個人的な覚え書きです。組織を代表した情報や意見ではなく、誤り等は全て著者個人の責任です。筆者自身は辞書の開発には関わっていませんが、ほとんど知られていない、専門家達の仕事と悩みへ触れる機会になればと思い、執筆しました。形態素解析器Sudachi Sudachiは、株式会社ワークスアプリケーションズの徳島人工知能 NLP研究所が開発する形態素解析器です。形態素解析は、人間の言葉を機械で扱う自然言語処理において、多くの場合に基盤となる技術で、主には、テキストを分割する「Segmentation」、語形を辞書形にする「Stemming」、動詞や名詞といった品詞を付与する「Part-of-Speech Tagging」を行うものです。世の中には多くの形態素解析器がありますが、その中でもSudachiの特色として
incep 2021/05/12
nlp

morphological_analysis

sudachi

dictionary
リンク
ダジャレを判定する - Stimulator
- はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、
incep 2021/04/22
bert

mecab

nlp

djr
リンク
Computation+Language at UMass and the Five Colleges
incep 2021/04/16
nlp

universities

umass
リンク
日本語話し言葉BERTを作成、公開します！ - Retrieva TECH BLOG
こんにちは。カスタマーサクセス部リサーチャーの勝又です。私はレトリバで自然言語処理、とくに要約や文法誤り訂正に関する研究の最新動向の調査・キャッチアップなどを行っております。今回の記事では、国立国語研究所様との共同研究で作成した日本語話し言葉BERTとその利用方法について紹介します。概要 BERTの簡単な説明話し言葉BERT作成方法書き言葉BERTの文法を表現する部分のみをCSJで追加学習書き言葉BERTに対して、話し言葉データを用いた分野適応実験文法を表現する部分のみを追加学習することの有効性の確認話し言葉データを用いた分野適応を行うことの有効性の確認日本語話し言葉BERTの公開ご利用方法まとめ概要近年、自然言語処理の分野ではBERT（Bidirectional Encoder Representations from Transf ormers）と呼ばれるモ
incep 2021/04/03
nlp

bert

language

model

japanese
リンク
Huggingface Transformers 入門 (8) - トークナイザー｜npaka
1. トークナイザー「トークナイザー」は、「テキスト」を「トークン」に分割し、それを「ID」に変換する機能を提供します。「テキスト」はそのままではニューラルネットワークで処理できないため、IDに変換する必要があります。 2. トークン化の方法テキストのトークン化は見た目以上に大変な作業で、トークン化の方法は複数あります。・単語・文字・サブワード2-1. 単語によるトークン化◎ スペースによるトークン化一番簡単なトークン化の方法は、「スペースによるトークン化」です。 "Don’t you love 🤗 Transf ormers? We sure do." ↓ ["Don't", "you", "love", "🤗", "Transf ormers?", "We", "sure", "do."] これは良い第1歩ですが、"Transf ormers? " や "do. " というトーク
incep 2021/03/15
learning

m

nlp

tokenizer

dl

transformer

bert
リンク
Enterprise AI Assistants in a Breeze
incep 2021/02/09
qa

nlp

rdf
リンク
Text REtrieval Conference (TREC) Home Page
The TREC Conference series is co-sponsored by the NIST Information Techno logy Laboratory's (ITL) Retrieval Group of the Information Access Division (IAD) Contact us at: trec (at) nist.gov
incep 2021/01/28
ir

nlp

conference
リンク
PyDial3: The Python3 Statistical Dialog System — PyDial 1.0.0 documentation
incep 2021/01/15
dialogue

ai

nlp
リンク
CoNLL-U Format
incep 2021/01/07
nlp

conll

universal_dependencies

ud

dependency
リンク
Papers with Code - T5 Explained
incep 2020/12/11
nlp

t5

dl
リンク
Papers with Code - Dependency Parsing
incep 2020/12/11
nlp

dp

dependency_parser
リンク
【ディープラーニング自由研究】LSTM+Transformer モデルによるテキスト生成｜tanikawa
Abstract• Transf ormer モデルをテキスト生成タスクで使用する場合、計算コストに難がある • 計算コストを抑えつつ Transf ormer の予測性能を活かすために、Positional Encoding を LSTM に置き換えた LSTM+Transf ormer モデルを考案 • 生成にかかる時間を Transf ormer の約 1/3（CPU 実行時）に抑えることができたはじめにTransf ormer は現在の自然言語処理分野における代表的な深層学習モデルの1つです。さまざまなベンチマークを総なめにした Google の BERT とその派生系 (XLNet, ALBERT, etc.) や、OpenAI の GPT-2 など、最近の研究のベースにあるのが Transf ormer です。 Transf ormer の特徴として、LSTM などの従来の RNN にあっ
incep 2020/11/12
lstm

dl

nlp
リンク
Catalogue of Language Resources and Tools in Japan
incep 2020/11/09
nlp

corpus
リンク
マガジン｜ClassCat Deep Learning / Analytics & Quantum Computingのイベント・技術情報 - TECH PLAY［テックプレイ］
ClassCat Deep Learning / Analytics & Quantum Computingに関するマガジン情報をまとめたページです。
incep 2020/10/12
nlp

allennlp

dl
リンク
言語処理技術セミナー
参加申し込みお申し込みは締め切りました参加申込フォーム上記フォームからお申し込みいただけます（参加申込受付期間：2023年9月1日（金）--10月16日（月））. お申込みいただきますと，参加登録確認メールが自動送付されます．自動返信メールが受信できない場合は，メールの受信設定をご確認の上，再度フォームよりお申し込みください． ※ 取材（参加費無料）をご希望の方には招待コードを発行します．招待コードはnlpseminar@nacos.comにお問合せください． ※ 「非会員学生」でお申し込みされた方は，必ず大学のメールアドレスをご登録ください．高校生以下の方などで，学校のメールアドレスをお持ちでない方はこの限りではありません． ※ 今回新たに言語処理学会会員にお申し込みされた方は，申し込みフォームの「その他コメント・ご質問」欄にその旨をご記入ください． ※ 言語処理学会会員，および
incep 2020/08/27
nlp

dl

seminar

event

AllenNLP
リンク
The Stanford Natural Language Processing Group
About A natural language parser is a program that works out the grammatical structure of sentences, for instance, which groups of words go together (as "phrases") and which words are the subject or object of a verb. Probabilistic parsers use knowledge of language gained from hand-parsed sentences to try to produce the most likely analysis of new sentences. These statistical parsers still make some
incep 2020/07/10
parser

language

nlp
リンク
前のページ 1 2 3 4 5 6 7 8 9 10 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx