並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 53件

新着順 人気順

"Natural Language Processing"の検索結果1 - 40 件 / 53件

"Natural Language Processing"に関するエントリは53件あります。 自然言語処理AI機械学習 などが関連タグです。 人気エントリには 『GPT-3の衝撃 - ディープラーニングブログ』などがあります。
  • GPT-3の衝撃 - ディープラーニングブログ

    この1週間はGPT-3のユースケースの広さに驚かされる毎日でした. シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので,勢いで書くことにしました. GPT-3はOpenAIが開発した言語生成モデルです.名前の由来であるGenerative Pretrained Transformerの通り,自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています. 先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され,様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています. 特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め,誇大広告気味だと警鐘を鳴らす事態に発展しています. This is mind blowing. With GPT-3, I built

      GPT-3の衝撃 - ディープラーニングブログ
    • 精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ

      サイト「みんなの自動翻訳@TexTra」より 英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。 だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね!”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳@TexTra(テキストラ)」(以下、TexTra)という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー))なのだという。 しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTra

        精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ
      • GPT-4

        We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks. We’ve created GPT-4, the latest milestone in OpenAI’s effort in scalin

          GPT-4
        • AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた

          スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理(NLP)の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。 「THE PORTOPIA SERIAL MURDER CASE」とは 『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』(以下、THE PORTOPIA SERIAL MURDER CASE)は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV

            AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇る スクエニAI部に経緯を訊いた
          • Python自然言語処理テクニック集【基礎編】

            自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。 主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。 環境はPython3系、Google Colaboratory(Ubuntu)で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。 機械学習、ディープラーニングは出てきません!テキストデータの前処理が中心です。 前処理系 大文字小文字 日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角 日本語だとこちらのほうが大事。 全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco

            • 同じ発音なのにまったく意味の違う言葉が存在するのはなぜでしょうか? 橋(はし)と箸(はし)など、わりと日常的に使う言葉が全く同じ音で構成されていて、コミュニケーション上の無駄も多く発生しているはずなのに、言語が生まれてからこれまでの間に淘汰されずにいるのはなぜですか? | mond

              Read the answer to this question in Mond

                同じ発音なのにまったく意味の違う言葉が存在するのはなぜでしょうか? 橋(はし)と箸(はし)など、わりと日常的に使う言葉が全く同じ音で構成されていて、コミュニケーション上の無駄も多く発生しているはずなのに、言語が生まれてからこれまでの間に淘汰されずにいるのはなぜですか? | mond
              • GitHub - google/budoux

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                  GitHub - google/budoux
                • ChatGPTはどのように学習を行なっているのか

                  はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

                    ChatGPTはどのように学習を行なっているのか
                  • LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ

                    ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。 既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日 昨年の年末振り返り記事でも話題にしたChatGPT(そして後続の各種LLM chatbot)ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な

                      LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
                    • 「たけのこの里」を「きのこの山」に『正しく』自動で修正して差し上げるプログラム - Qiita

                      はじめに ~素晴らしいお菓子の紹介と後発劣化品の存在~ みなさんご存知かと思いますが、「きのこの山」1という素晴らしいお菓子があります。株式会社明治様が1975年から製造・販売されているチョコレートスナック菓子です。きのこのような可愛らしいフォルムで、茎の部分がクラッカー、傘の部分がチョコレートになっています。 5年もの開発期間をかけてベストな組み合わせを試行錯誤されたとのことだけあって、持ちやすく機能的でありながら、たっぷりと使われたチョコと、程よい塩味とサクサク感のクラッカーが合わさり、至上の味わいを実現しています。このような素晴らしいお菓子を生み出してくださった明治様には本当に頭が上がりません。 一方で、その爆発的ヒットを受けて4年後に「たけのこの里」なる類似粗悪品が登場しました。こちらは開発期間が短いこともあってか、チョコは約30%減らされ、土台はボソボソと粉っぽく持ちづらいクッキ

                        「たけのこの里」を「きのこの山」に『正しく』自動で修正して差し上げるプログラム - Qiita
                      • ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

                        「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです

                          ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
                        • あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開

                          人間が書いたものと見分けが付かないぐらいに精度の高い文章を生成できる言語モデル「GPT-2」の後継である「GPT-3」が、人工知能を研究する組織・OpenAIにより公開されました。 GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners https://github.com/openai/gpt-3 [2005.14165] Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 OpenAI debuts gigantic GPT-3 language model with 175 billion parameters https://venturebeat.com/2020/05/29/openai-debuts-giga

                            あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開
                          • Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita

                            Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...)ExcelAPIVBA自然言語処理COTOHA 3行まとめ Excel関数一発で高度な言語処理を使えるようにしました 感情推定、固有表現抽出など日本語を分析・整理するのにいろいろ使えます Windows + Officeユーザならマクロファイルで誰でも簡単に使えます ※Macだと多分動かないと思います。VBAのHTTPリクエストを有効にできないため。。。 9/1追記: コメント頂きましたが、64bit版OfficeだとjsonParseが動かないようなのでアップデートしてみました。動作確認できていないので自己責任でお願いします https://github.com/korinzuz2/excelcotoha/blob/master/COTOHA公開用64bitExcel対応版.xls

                              Excelで誰でも簡単言語処理 (感情推定, 固有表現抽出, キーワード抽出, 文類似度推定 etc...) - Qiita
                            • 最も「ありそうで存在しない漢字」は何か? - Qiita

                              タイトルが全てです。 個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。 手法 以下の手順で「ありそうで存在しない漢字」を調べることにしました。 すでに存在する漢字を構成する部品を調査する 出現回数が多い部品どうしを組み合わせ新たな漢字を作る 構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けする スコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。 頻出部品を調査する UnicodeのCJK統合漢字か

                                最も「ありそうで存在しない漢字」は何か? - Qiita
                              • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                  OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                • 【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク

                                  いつもテキスト解析Web APIをご利用いただきありがとうございます。 テキスト解析Web APIにおける一部APIの後継バージョン(V2)リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析 自然言語理解 ■ 変更箇所 リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになります リクエストパラメータが変わります(一部パラメータが廃止されます) レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。 日本語形態素解析 自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。 ご迷惑をおかけしますが、なにとぞご了承ください。 今後ともテキスト解析Web APIをよろしくお願いいたします。

                                    【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク
                                  • 文章要約AI タンテキ

                                    【重要】文章要約AIタンテキポータル サービス終了のお知らせ この度、文章要約AIタンテキポータルは、誠に勝手ながら2023年8月31日(木) 19:00をもちまして、サービスを終了させていただくこととなりました。 長らくご利用いただきまして、誠にありがとうございました。 詳細や返金対応の流れにつきましては、こちらをご覧ください。

                                      文章要約AI タンテキ
                                    • 「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開

                                      株式会社ANOBAKAは、直近の大規模言語モデル(LLM:Large Language Models)の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル(LLM)カオスマップ」2023年度6月版を公開したと発表した。 大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルだ。2022年11月に発表され大きな話題となったChatGPTも、2022年初頭にトレーニングした「GPT-3.5シリーズ」を対話向けにファインチューニングしたものであり、大規模言語モデルの応用例の一つだ。 米国同様、日本でも今後アプリケーションレイヤーのGenerative AIスタートアップが多数勃興することが予測されるという。アプリケーションレイヤーのGenerative

                                        「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開
                                      • 研究者2人を解雇したGoogle AI倫理対立の深刻度 - 日本経済新聞

                                        米グーグルの人工知能(AI)研究部門が、AI倫理研究者の解雇を巡って大きく揺れている。同社が開発した自然言語処理技術「BERT(バート)」のような巨大な言語モデルが内包する問題点を指摘しようとした2人の女性研究者が、2020年12月と21年2月にそれぞれ解雇された問題だ。「論文の社内検閲」に端を発した騒動に見えるが、AI倫理を巡るより根深い社内対立が透けて見える。問題が明らかになったのは20年

                                          研究者2人を解雇したGoogle AI倫理対立の深刻度 - 日本経済新聞
                                        • 自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録

                                          はじめまして@vimmodeです。普段はMNTSQというリーガルテックの会社で自然言語処理をしています。今回はBERTとBERTまでの流れを簡単に紹介します。 自然言語処理で今やデファクトスタンダードとなりつつであるBERT。登場当時はモデルの複雑さに伴う計算環境や計算リソースの確保が難しく気軽に動かせなかったが、ColabやKaggleカーネル環境が整備されたきたおかげで誰でも気軽に使えるようになりました。 また、haggingface社が公開したBERTと関連モデルのラッパーライブラリであるtransformersによりわずか10行程度でBERTモデルを記述できます。 一方、自然言語処理を始めて間もない段階でいきなりBERTを突きつけられても理解の壁が高いと思いますので、今回は数式やコードを使わずにBERTに至るまでの流れを簡単に紹介したいと思います。 ※これらはあくまで私の理解であり

                                            自然言語処理でBERTまでの流れを簡単に紹介 - moriyamaのエンジニアリング備忘録
                                          • MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog

                                            こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。 github.com 本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。 自然言語処理の要素技術に興味のある方 データ構造・アルゴリズムに興味のある方 Rustでの自然言語処理に興味がある方 Vibratoについて 最小コスト法による形態素解析 単語ラティスの構築 最小コスト経路の計算 高速化の取り組み 辞書引きのキャッシュ効率化 実装での注意点 連接コスト参照のキャ

                                              MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
                                            • 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services

                                              Amazon Web Services ブログ 日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました 多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の

                                                日本語形態素解析器 Sudachi の語彙データ(SudachiDict)および単語ベクトル(chiVe)が AWS 上で Open Data として公開されました | Amazon Web Services
                                              • 深層学習界の大前提Transformerの論文解説! - Qiita

                                                この例に関する質問への回答を補足の項に記載しましたので、より良い理解のためにご参照ください。 1.3 モデル構造 トランスダクションモデル(ある文章を他の文章に変換するモデル(翻訳など))において主流なのは以下のようなエンコーダ-デコーダモデルである。 エンコーダ: 入力の文 $(x_1,\ldots,x_n)$ を $\boldsymbol{z}=(z_1,\ldots,z_n)$ へ変換 デコーダ: $\boldsymbol{z}$ から単語 $(y_1,\ldots,y_m)$ を出力。 ただし、1時刻に1単語のみで、前時刻のデコーダの出力を現時刻のデコーダの入力として使う。 Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル

                                                  深層学習界の大前提Transformerの論文解説! - Qiita
                                                • GPT-2におけるテキスト生成

                                                  はじめにMachine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 昨今、OpenAIからGPT-3が発表され、生成系モデルが大きな注目を集めています。 そこで、本記事では、弊社で作成している生成系モデルの紹介をいたします。 自然言語処理におけるテキスト生成自然言語処理(NLP)は、人間の言語(自然言語)とコンピュータの相互理解、特に大量の自然言語データをコンピュータに処理および分析させるための研究分野です。 今回紹介するテキスト生成は、この自然言語処理の研究分野の一つです。 テキスト生成の応用例の一つは、スマートフォンのキーボードでの次の単語の予測です。このタスクはまさに​​言語モデルが行うことと同様です。言語モデルは、単語のリストを受け取り、次の単語を予測します。 図1の例では、言語モデルが「今日は」という単語を受け取り、次の単語で

                                                    GPT-2におけるテキスト生成
                                                  • 形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ

                                                    研究開発部の原島です。今日は表題の渋いバッチをつくった話をします。 あっちでも形態素解析、こっちでも形態素解析 みなさん、形態素解析してますか?してますよね?クックパッドでもさまざまなプロジェクトで形態素解析をしています。 いや、むしろ、しすぎです。プロジェクト A でレシピを解析し、プロジェクト B でもレシピを解析し、プロジェクト C でもレシピを解析し、... といった具合です。ちなみに、形態素解析(の結果)が必要なプロジェクトとしてはレシピの分類やレコメンド、各種分散表現(e.g., word2vec)や BERT の学習などがあります。 もちろん、最終的に得たい解析結果が違うのであれば問題ありません。しかし、私が見たかぎり、ほとんどの場合は同じ(もしくは、同じにできそう)でした。であれば、 解析器をインストール(→ Dockerfile を試行錯誤) 解析対象を取得(→ SQL

                                                      形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ
                                                    • 日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

                                                      概要 こんにちは@kajyuuenです。 日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日本語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは

                                                        日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
                                                      • 人間と見分けがつかないほど自然な文章を書けるAI「GPT-3」の改良版AI「InstructGPT」一般公開、詩も執筆可能

                                                        文章生成AI「GPT-3」はオンライン掲示板で人間とバレずに1週間会話できるほど違和感の少ない文章を生成できることで知られており、Microsoftのプラットフォームに採用されるなど大きな注目を集めています。一方でGPT-3には反イスラム教的なバイアスが存在することが指摘されるなど、生成される文章に偏りがあることも分かっています。そんなGPT-3の学習モデルを改良して偏りを抑えつつ文章生成精度も向上させた文章生成AI「InstructGPT」の一般提供が2022年1月27日に始まりました。 Aligning Language Models to Follow Instructions https://openai.com/blog/instruction-following/ OpenAI launches new GPT-3 model despite continued toxic t

                                                          人間と見分けがつかないほど自然な文章を書けるAI「GPT-3」の改良版AI「InstructGPT」一般公開、詩も執筆可能
                                                        • 日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み

                                                          日本語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日本語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouXは機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.googleblog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、

                                                            日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能&採用例&デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み
                                                          • 要約をAIが自動生成してくれるサービス『QuillBot』と『ELYZA DIGEST』|これ買ってよかった | ライフハッカー・ジャパン

                                                            デスク配線がスッキリ。Ankerの全部入り12 in 1モニタースタンドが突然8,250円OFFされてた #Amazonセール

                                                              要約をAIが自動生成してくれるサービス『QuillBot』と『ELYZA DIGEST』|これ買ってよかった | ライフハッカー・ジャパン
                                                            • BERTとは|Googleが誇る自然言語処理モデルの仕組み、特徴を解説 | Ledge.ai

                                                              サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                BERTとは|Googleが誇る自然言語処理モデルの仕組み、特徴を解説 | Ledge.ai
                                                              • 13億パラメーターを持つGPT言語モデルをrinnaが公開、日本語に特化

                                                                GPTは、人間が使う会話や文章に出てくる単語の確率の組み合わせから次の単語の確率を計算する言語モデルだ。 例えば、「確率(吾輩は猫である)=確率(吾輩)×確率(は|吾輩)×確率(猫|吾輩,は)×確率(で|吾輩,は,猫)×確率(ある|吾輩,は,猫,で)」のような方法で計算する。この性質を用いて、「吾輩は」という単語を入力したとき、次の単語として確率が高い「猫」を予測できる。 性能は14パープレキシティー 関連記事 2021年の「AI/機械学習」はこうなる! 5大予測 2020年は、自然言語処理(NLP)のTransformer技術に基づくBERT/GPT-3や、画像生成のディープフェイクが大注目となる一方で、倫理に関する問題がさまざまな方面でくすぶり続けた。2021年の「AI/機械学習」界わいはどう変わっていくのか? 幾つかの情報源を参考に、5個の予測を行う。 Microsoft、自然言語処

                                                                  13億パラメーターを持つGPT言語モデルをrinnaが公開、日本語に特化
                                                                • 続・MeCabの分かち書きを並列処理で高速化する

                                                                  まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介 読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る 処理: multiprocessingを用いた並列処理 書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合 はじめに 日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。 特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。 特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の

                                                                    続・MeCabの分かち書きを並列処理で高速化する
                                                                  • Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム

                                                                    ML事業部の金田です。今回は、ストックマークの提供する法人向けサービス「Anews」の裏側で動くビジネスニュース推薦システムについて、簡単に紹介いたします。 AnewsとはAnewsは組織変革のための情報収集+コミュニケーションプラットフォームです。 情報収集のためのコア機能としては、国内外3万メディアから収集したビジネスニュースから、利用者の興味・関心に合わせて記事を配信するサービスを提供しています。日々配信されるニュースから業務ニーズに直結するインサイトを獲得し、これを話題にユーザ同士が交流することで、組織全体の情報感度やコミュニケーションを促進させるのが、サービスの狙いです。 事前準備:ことばの定義具体的な機能説明の前に、Anewsにおける基本的な概念について軽く整理します。 Anewsは1企業=1集団としての利用を想定しています。以降ではこの集団をチーム、チームに所属する各利用者を

                                                                      Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム
                                                                    • Googleの対話特化型AIとスマホで語り合えるアプリ「AI Test Kitchen」が自然すぎて完全に中の人がいるレベル

                                                                      Googleが、2022年5月12日から催されている年次開発者カンファレンス「Google I/O 2022」で、同社の自然言語処理AI「LaMDA 2」と、そのデモアプリの「AI Test Kitchen」を発表しました。 AI Test Kitchen https://aitestkitchen.withgoogle.com/ Google I/O 2022: Advancing knowledge and computing https://blog.google/technology/developers/io-2022-keynote/ 近日公開予定のアプリ「AI Test Kitchen」は、Googleの対話特化型AIである「対話アプリケーションのための言語モデル(Language Model for Dialogue Applications:LaMDA)」の第2世代を、ス

                                                                        Googleの対話特化型AIとスマホで語り合えるアプリ「AI Test Kitchen」が自然すぎて完全に中の人がいるレベル
                                                                      • ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?

                                                                        ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?:ChatGPT入門 ChatGPTやその前身ともいえるInstructGPTは、GPTとは異なる目的を持ったモデルです。それ故にこれまでとは異なり、ユーザーの意図に沿ったテキストを生成できます。その違いを見てみましょう。 連載目次 GPT、InstructGPT、そしてChatGPT ChatGPTはその名の通り、対話に特化した言語モデルです。GPT 3(GPT 3.5)をベースとしていますが、GPT 3からChatGPTが生まれるまでの間にはもう一つ重要な言語モデルがあります。それがInstructGPTです(InstructGPT自体はGPT 3をベースとしているようです)。 では、GPT→InstructGPT→ChatGPTという進化がなぜ起きたのでしょう。InstructGPTについての論文

                                                                          ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?
                                                                        • 超高精度の言語AI「GPT-3」は何がスゴい?要約、小説、コーディングなど広がる可能性

                                                                          AIが記事を作り、小説を執筆し、問い合わせにチャットで回答することは当たり前になってきました。その背景にはAIの自然言語処理技術の飛躍的な向上があり、中でも2020年に登場したGPT-3はある種のブレイクスルーとしてAIの界隈以外にも広く知れ渡るようになりました。GPTは従来のAIと比較して、その規模やメカニズムにおいていくつかの注目すべき点があります。本記事では、そんなGPT-3について簡単に解説していきます。 合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔

                                                                            超高精度の言語AI「GPT-3」は何がスゴい?要約、小説、コーディングなど広がる可能性
                                                                          • Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

                                                                            Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency. Abstract State-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed com

                                                                              Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
                                                                            • BERTなどの大規模のモデルの課題 - Qiita

                                                                              自然言語処理の画期的なモデル - BERT BERT [Bidirectional Encoder Representations from Transformers] は、Googleのチームに2018年の秋に発表された。トランスフォーマーアーキテクチャを使って、大量のデータで非常に大きいネットワークを画期的な方法でモデルを学習した結果である。学習方法と精度についてこの記事をご参照ください。 オープンソース・情報を自由に交換することを大事にしている機械学習のフィールドでは、新しいアイデアを arxiv.org で論文として公開し、github でモデルを共有することが基本的なやり方である。新しいアイデアが公開されたとたんに、世界の機械学習の研究者や開発チームが参考したり、再利用したりできる。 オープンソースの文化の結果、BERTが公開されて数か月たったら、 Open AI、Faceboo

                                                                                BERTなどの大規模のモデルの課題 - Qiita
                                                                              • テキストデータのかさましを実装する - 一休.com Developers Blog

                                                                                はじめに データサイエンス部の平田です。 ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし(augmentation)を行うことがあります。 画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。 ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。 そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement:文中の単語の内n個、同義語に置き換える Random Insertion:文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand

                                                                                  テキストデータのかさましを実装する - 一休.com Developers Blog
                                                                                • ChatGPT

                                                                                  新着記事