[B! natural language processing] t2y-1979のブックマーク

t2y-1979 id:t2y-1979

natural language processingに関するt2y-1979のブックマーク (89)

言語処理学会第30回年次大会(NLP2024) プログラム
お知らせ大会への参加方法，発表形態，質疑応答，発表者マニュアル等は大会参加マニュアルをご覧ください．現地参加者とオンライン参加者を繋ぐ参加者限定Slackについてはこちらをご覧ください．予稿集（zipファイル，428MB）はこちら（3月8日更新）からダウンロードできます．会場本会議，チュートリアル，ワークショップ
t2y-1979 2024/02/08
natural language processing

event
リンク
Introducing Claude
After working for the past few months with key partners like Notion, Quora, and DuckDuckGo in a closed alpha, we’ve been able to carefully test out our systems in the wild, and are ready to offer Claude more broadly so it can power crucial, cutting-edge use cases at scale. Claude is a next-generation AI assistant based on Anthropic’s research into training helpful, honest, and harmless AI systems.
t2y-1979 2023/04/06
ai

llm

natural language processing
リンク
深層学習界の大前提Transformerの論文解説！ - Qiita
この例に関する質問への回答を補足の項に記載しましたので、より良い理解のためにご参照ください。 1.3 モデル構造トランスダクションモデル(ある文章を他の文章に変換するモデル(翻訳など))において主流なのは以下のようなエンコーダ-デコーダモデルである。エンコーダ: 入力の文 $(x_1,\ldots,x_n)$ を $\boldsymbol{z}=(z_1,\ldots,z_n)$ へ変換デコーダ: $\boldsymbol{z}$ から単語 $(y_1,\ldots,y_m)$ を出力。ただし、1時刻に1単語のみで、前時刻のデコーダの出力を現時刻のデコーダの入力として使う。 Transf ormerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。つまり、以下の3つ(+2つ)のことが分かればモデル
t2y-1979 2023/03/30
gpt

natural language processing

research

machine learning
リンク
Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency. Abstract State-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed com
t2y-1979 2023/03/30
gpt

natural language processing

opensource
リンク
LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日昨年の年末振り返り記事でも話題にしたChatGPT（そして後続の各種LLM chatbot）ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な
t2y-1979 2023/03/25
gpt

ai

natural language processing
リンク
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
t2y-1979 2023/03/19
gpt

natural language processing
リンク
「ChatGPTは凡庸な悪」言語学の大家、チョムスキー氏が指摘する、その本当の問題とは？
オープンAIのチャットGPT、グーグルのバード（Bard）、マイクロソフトのシドニー（Sydney）は機械学習の驚異だ。（中略）これらのプログラムは、汎用人工知能の地平線を照らす最初の兆し、と称えられている。機械の心が人間の脳を超える、長く予言された瞬間だ。それは、処理速度やメモリサイズといった量的な面だけでなく、知的洞察力や芸術的創造性といった、あらゆる人間特有の能力をもしのぐということだ。
t2y-1979 2023/03/17
gpt

ai

concept

natural language processing
リンク
GPT-4
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, em itting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks. We’ve created GPT-4, the latest milestone in OpenAI’s effort in scalin
t2y-1979 2023/03/15
ai

natural language processing
リンク
最も「ありそうで存在しない漢字」は何か？ - Qiita
タイトルが全てです。個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。手法以下の手順で「ありそうで存在しない漢字」を調べることにしました。すでに存在する漢字を構成する部品を調査する出現回数が多い部品どうしを組み合わせ新たな漢字を作る構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けするスコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。頻出部品を調査する UnicodeのCJK統合漢字か
t2y-1979 2023/01/03
こういうの好きw

japanese

natural language processing
リンク
文章要約AI タンテキ
【重要】文章要約AIタンテキポータルサービス終了のお知らせこの度、文章要約AIタンテキポータルは、誠に勝手ながら2023年8月31日(木) 19:00をもちまして、サービスを終了させていただくこととなりました。長らくご利用いただきまして、誠にありがとうございました。詳細や返金対応の流れにつきましては、こちらをご覧ください。
t2y-1979 2022/12/15
natural language processing

api
リンク
ChatGPTはどのように学習を行なっているのか
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。特徴としては、前の対話内容に続く質問への回答が可能。間違いを認めることもできる。正しくない前提に対する異議を唱えることもできる。不適切なリクエストには応じない。
t2y-1979 2022/12/08
ai

natural language processing

design
リンク
精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ
サイト「みんなの自動翻訳＠TexTra」より英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね！”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳＠TexTra（テキストラ）」（以下、TexTra）という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構（NICT（エヌアイシーティー））なのだという。しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTra
t2y-1979 2022/08/26
translate

natural language processing
リンク
同じ発音なのにまったく意味の違う言葉が存在するのはなぜでしょうか？橋（はし）と箸（はし）など、わりと日常的に使う言葉が全く同じ音で構成されていて、コミュニケーション上の無駄も多く発生しているはずなのに、言語が生まれてからこれまでの間に淘汰されずにいるのはなぜですか？ | mond
Read the answer to this question in Mond
t2y-1979 2022/02/13
おもしろい

japanese

history

natural language processing
リンク
GitHub - google/budoux
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
t2y-1979 2021/11/19
japanese

natural language processing
リンク
Deepgram Voice AI: Text to Speech + Speech to Text APIs | Deepgram
{ "metadata": { "transaction_key": "deprecated", "request_id": "34fced0b-21db-4b20-8808-7c09d8777826", "sha256": "088e88dd76213db9b770768fe7ddc6bacde93217bb6b8129e10a8cda7c45a8d3", "created": "2024-03-06T16:28:25.548Z", "duration": 129.576, "channels": 1, "models": [ "30089e05-99d1-4376-b32e-c263170674af" ], "model_info": { "30089e05-99d1-4376-b32e-c263170674af": { "name": "2-general-nova", "versi
t2y-1979 2021/09/03
natural language processing
リンク
テキストデータのかさましを実装する - 一休.com Developers Blog
はじめにデータサイエンス部の平田です。ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし（augmentation）を行うことがあります。画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement：文中の単語の内n個、同義語に置き換える Random Insertion：文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand
t2y-1979 2021/07/28
natural language processing
リンク
GitHub - WorksApplications/chiVe: Japanese word embedding with Sudachi and NWJC 🌿
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
t2y-1979 2020/12/08
natural language processing

japanese
リンク
日本語形態素解析器 Sudachi の語彙データ（SudachiDict）および単語ベクトル（chiVe）が AWS 上で Open Data として公開されました | Amazon Web Services
Amazon Web Services ブログ日本語形態素解析器 Sudachi の語彙データ（SudachiDict）および単語ベクトル（chiVe）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の
t2y-1979 2020/11/24
aws

natural language processing

morphological analysis
リンク
PythonによるWikipediaを活用した自然言語処理
Private content!This content has been marked as private by the uploader.
t2y-1979 2020/09/06
natural language processing

text processing
リンク
Lindera Morphology
t2y-1979 2020/02/16
rust

natural language processing

morphological analysis
リンク
1 2 3 4 5 次のページ