"Natural Language Processing"の人気記事 47件

1 - 40 件 / 47件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

"Natural Language Processing"の検索結果1 - 40 件 / 47件

"Natural Language Processing"に関するエントリは47件あります。 AI、自然言語処理、人工知能などが関連タグです。人気エントリには『GPT-3の衝撃 - ディープラーニングブログ』などがあります。

GPT-3の衝撃 - ディープラーニングブログ
- 1595 users
- deeplearning.hatenablog.com
- テクノロジー
- 2020/07/21
この1週間はGPT-3のユースケースの広さに驚かされる毎日でした．シリコンバレーでは話題騒然ですが日本ではほとんど話題になっていないので，勢いで書くことにしました． GPT-3はOpenAIが開発した言語生成モデルです．名前の由来であるGenerative Pretrained Transformerの通り，自然言語処理で広く使われるTransformerモデルを言語生成タスクで事前学習しています．先月申請すれば誰でもGPT-3を利用できるOpenAI APIが発表され，様々な業種の開発者によって驚くべきデモンストレーションがいくつも公開されています．特に話し言葉からJSXやReactのコードを生成するデモは著名なベンチャーキャピタルから注目を集め，誇大広告気味だと警鐘を鳴らす事態に発展しています． This is mind blowing. With GPT-3, I built
- AI
- 機械学習
- GPT-3
- あとで読む
- deeplearning
- 学習
- NLP
- IT
- 自然言語処理
- api
精度はGoogle翻訳を越える… 無料の国産「TexTra」が地味にスゴイ
- 1492 users
- biz-journal.jp
- テクノロジー
- 2022/08/26
サイト「みんなの自動翻訳＠TexTra」より英文などを自動翻訳したいとき、アメリカのグーグルが開発した「Google翻訳」を利用するという人は多いだろうが、今は、世界一高精度な自動翻訳ツールはドイツのDeepL GmbHが開発した「DeepL」だといわれている。だが、日本が開発したある自動翻訳ツールもかなり優秀だという。6月にあるTwitterユーザーが呟いた投稿が多くの“いいね！”を集めるなど話題を呼んでいた。それによると、無料の「みんなの自動翻訳＠TexTra（テキストラ）」（以下、TexTra）という自動翻訳サイトがDeepLに勝るとも劣らない性能を誇り、しかも開発したのは日本の国立研究開発法人情報通信研究機構（NICT（エヌアイシーティー））なのだという。しかし、このツイートで注目を集めたTexTraだが、DeepLの1日の閲覧数が数百万回といわれているのに対し、TexTra
- 翻訳
- あとで読む
- AI
- 技術
- webサービス
- 学習
- 英語
- 開発
- 研究
- ツール
GPT-4
- 1421 users
- openai.com
- テクノロジー
- 2023/03/15
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks. We’ve created GPT-4, the latest milestone in OpenAI’s effort in scalin
- AI
- ChatGPT
- あとで読む
- 機械学習
- GPT-4
- 人工知能
- 文章
- GPT
- OpenAI
- ツール
AI搭載版『ポートピア連続殺人事件』が4月24日にSteamで無料配信決定、『THE PORTOPIA SERIAL MURDER CASE』として名作ADVが蘇るスクエニAI部に経緯を訊いた
- 698 users
- jp.ign.com
- テクノロジー
- 2023/04/21
スクウェア・エニックスは、堀井雄二氏が手掛けた『ポートピア連続殺人事件』を題材に、先端AI技術を搭載したテックプレビュー『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』を2023年4月24日にSteamにて無料配信すると発表した。また公式サイトをオープンしている。 AIの一分野である自然言語処理（NLP）の技術を使った「NLPアドベンチャー」と銘打っており、日英の言語に対応している。「THE PORTOPIA SERIAL MURDER CASE」とは『SQUARE ENIX AI Tech Preview: THE PORTOPIA SERIAL MURDER CASE』（以下、THE PORTOPIA SERIAL MURDER CASE）は、『ドラゴンクエスト』シリーズで知られる堀井雄二氏が手掛けたADV
- AI
- ゲーム
- あとで読む
- game
- steam
- 人工知能
- これはすごい
- 事件
- ファミコン
- 文章

Python自然言語処理テクニック集【基礎編】
- 587 users
- www.mojirca.com
- テクノロジー
- 2021/03/28
自分がよく使用する日本語自然言語処理のテンプレをまとめたものです。主に自分でコピペして使う用にまとめたものですが、みなさんのお役に立てれば幸いです。環境はPython3系、Google Colaboratory（Ubuntu）で動作確認しています。 Pythonの標準機能とpipで容易にインストールできるライブラリに限定しています。機械学習、ディープラーニングは出てきません！テキストデータの前処理が中心です。前処理系大文字小文字日本語のテキストにも英語が出てくることはあるので。 s = "Youmou" print(s.upper()) # YOUMOU print(s.lower()) # youmou 全角半角日本語だとこちらのほうが大事。全角半角変換のライブラリはいくつかありますが、自分はjaconv派。 MIT Licenseで利用可能です。 import jaco
同じ発音なのにまったく意味の違う言葉が存在するのはなぜでしょうか？橋（はし）と箸（はし）など、わりと日常的に使う言葉が全く同じ音で構成されていて、コミュニケーション上の無駄も多く発生しているはずなのに、言語が生まれてからこれまでの間に淘汰されずにいるのはなぜですか？ | mond
- 560 users
- mond.how
- 学び
- 2022/02/13
Read the answer to this question in Mond
GitHub - google/budoux
- 401 users
- github.com/google
- テクノロジー
- 2021/11/18
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- javascript
- google
- python
- あとで読む
- github
- nlp
- 日本語
- tool
- 自然言語処理
- ツール
LLM chatbotが人類にもたらすのは、絶望なのか希望なのか - 渋谷駅前で働くデータサイエンティストのブログ
- 400 users
- tjo.hatenablog.com
- テクノロジー
- 2023/03/24
ちょっと前に以下のようなことを放言したら、思いの外反響が多くてちょっとびっくりしたのでした。それだけ、現代のLLM chatbot / generative AIの台頭に期待と不安を抱いている人が多いということの裏返しなのでしょう。既に色々コメントが出ているけど、我々人類が「知的労働」だと思っていることの大半が実は「過去実績をなぞって適当にその場に合わせて組み立てているだけ」なんじゃないかと訝っているので、そういう「自称知的労働」は多分LLMで代替されると思う。新奇なものを生み出す仕事は相変わらず残る https://t.co/GGK41vSDcn— TJO (@TJO_datasci) 2023年3月15日昨年の年末振り返り記事でも話題にしたChatGPT（そして後続の各種LLM chatbot）ですが、今年に入ってからの話題の広がり方には想像を超えるものがあり、ついに朝の情報番組な
- AI
- ChatGPT
- あとで読む
- GPT
- 機械学習
- 人工知能
- LLM
- nlp
- 自然言語処理
- 仕事
ChatGPTはどのように学習を行なっているのか
- 400 users
- zenn.dev/ttya16
- テクノロジー
- 2022/12/06
はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。特徴としては、前の対話内容に続く質問への回答が可能。間違いを認めることもできる。正しくない前提に対する異議を唱えることもできる。不適切なリクエストには応じない。
- AI
- ChatGPT
- あとで読む
- 機械学習
- 人工知能
- 学習
- 技術
- OpenAI
- 自然言語処理
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
- 390 users
- speakerdeck.com/eumesy
- テクノロジー
- 2023/03/18
「Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです
- ChatGPT
- あとで読む
- AI
- 自然言語処理
- nlp
- 機械学習
- 人工知能
- GPT
- LLM
- 言語
あまりに高精度のテキストを作り出してしまうため「危険すぎる」と問題視された文章生成言語モデルの最新版「GPT-3」公開
- 386 users
- gigazine.net
- 学び
- 2020/06/01
人間が書いたものと見分けが付かないぐらいに精度の高い文章を生成できる言語モデル「GPT-2」の後継である「GPT-3」が、人工知能を研究する組織・OpenAIにより公開されました。 GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners https://github.com/openai/gpt-3 [2005.14165] Language Models are Few-Shot Learners https://arxiv.org/abs/2005.14165 OpenAI debuts gigantic GPT-3 language model with 175 billion parameters https://venturebeat.com/2020/05/29/openai-debuts-giga
- 文章
- あとで読む
- AI
- 機械学習
- 言語
- GPT-3
- 自動文章生成
- NLP
- 人工知能
- language
最も「ありそうで存在しない漢字」は何か？ - Qiita
- 364 users
- qiita.com/hakatashi
- テクノロジー
- 2023/01/02
タイトルが全てです。個々のパーツとしてはありふれた部品なのに、合体させると「存在しない漢字」になる組み合わせは一体何なのか調べてみました。 ※この記事は TSG Advent Calendar 2022 の14日目の記事です。手法以下の手順で「ありそうで存在しない漢字」を調べることにしました。すでに存在する漢字を構成する部品を調査する出現回数が多い部品どうしを組み合わせ新たな漢字を作る構成する部品の出現頻度から、それぞれの組み合わせの「ありそう度」をスコア付けするスコアが最も高いものを「最もありそうで存在しない漢字」とする CHISE 漢字構造情報データベースは、Unicodeに収録されている全漢字を含むさまざまな漢字の部品構造をデータベース化したオープンデータです。今回はこちらのデータを利用して調査を行うことにしました。頻出部品を調査する UnicodeのCJK統合漢字か
- 漢字
- ネタ
- 言語
- 文字
- あとで読む
- 言葉
- 統計
- Qiita
- kanji
- データ
OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
- 331 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
【重要】日本語形態素解析・自然言語理解API V2 リリースのお知らせ - Yahoo!デベロッパーネットワーク
- 246 users
- developer.yahoo.co.jp
- テクノロジー
- 2022/07/16
いつもテキスト解析Web APIをご利用いただきありがとうございます。テキスト解析Web APIにおける一部APIの後継バージョン（V2）リリースと仕様変更についてお知らせいたします。 ■ 対象API 日本語形態素解析自然言語理解 ■ 変更箇所リクエストURLが変わります GETリクエストは廃止となり、POSTリクエストのみになりますリクエストパラメータが変わります（一部パラメータが廃止されます）レスポンス形式・フィールドが共に変更になります V2の仕様の詳細につきましては以下のページをご覧ください。日本語形態素解析自然言語理解 V1終了予定時期につきましては2022年11月末を予定しております。ご迷惑をおかけしますが、なにとぞご了承ください。今後ともテキスト解析Web APIをよろしくお願いいたします。
- 自然言語処理
- あとで読む
- yahoo
- NLP
- api
- 日本語
- 形態素解析
- AI
文章要約AI タンテキ
- 207 users
- ai-tanteki.com
- テクノロジー
- 2021/04/21
【重要】文章要約AIタンテキポータルサービス終了のお知らせこの度、文章要約AIタンテキポータルは、誠に勝手ながら2023年8月31日(木) 19:00をもちまして、サービスを終了させていただくこととなりました。長らくご利用いただきまして、誠にありがとうございました。詳細や返金対応の流れにつきましては、こちらをご覧ください。
- webサービス
- AI
- 文章
- 自然言語処理
- api
- あとで読む
- サービス
- 人工知能
- webservice
- 要約
「大規模言語モデル（LLM）カオスマップ」2023年度6月版が公開
- 181 users
- digital-shift.jp
- テクノロジー
- 2023/06/07
株式会社ANOBAKAは、直近の大規模言語モデル（LLM：Large Language Models）の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル（LLM）カオスマップ」2023年度6月版を公開したと発表した。大規模言語モデル（LLM：Large Language Models）とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルだ。2022年11月に発表され大きな話題となったChatGPTも、2022年初頭にトレーニングした「GPT-3.5シリーズ」を対話向けにファインチューニングしたものであり、大規模言語モデルの応用例の一つだ。米国同様、日本でも今後アプリケーションレイヤーのGenerative AIスタートアップが多数勃興することが予測されるという。アプリケーションレイヤーのGenerative
研究者2人を解雇したGoogle AI倫理対立の深刻度 - 日本経済新聞
- 169 users
- www.nikkei.com
- テクノロジー
- 2021/03/14
米グーグルの人工知能（AI）研究部門が、AI倫理研究者の解雇を巡って大きく揺れている。同社が開発した自然言語処理技術「BERT（バート）」のような巨大な言語モデルが内包する問題点を指摘しようとした2人の女性研究者が、2020年12月と21年2月にそれぞれ解雇された問題だ。「論文の社内検閲」に端を発した騒動に見えるが、AI倫理を巡るより根深い社内対立が透けて見える。問題が明らかになったのは20年
- AI
- あとで読む
- Google
- 人工知能
- 研究
- 差別
- ICT
MeCab互換な形態素解析器Vibratoの高速化技法 - LegalOn Technologies Engineering Blog
- 123 users
- tech.legalforce.co.jp
- テクノロジー
- 2022/09/20
こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato（ヴィブラ〰ト）を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vibratoはオープンソースソフトウェアとして以下のレポジトリで公開しています。 github.com 本記事では、Vibratoの技術仕様を解説します。以下のような方を読者として想定します。自然言語処理の要素技術に興味のある方データ構造・アルゴリズムに興味のある方 Rustでの自然言語処理に興味がある方 Vibratoについて最小コスト法による形態素解析単語ラティスの構築最小コスト経路の計算高速化の取り組み辞書引きのキャッシュ効率化実装での注意点連接コスト参照のキャ
日本語形態素解析器 Sudachi の語彙データ（SudachiDict）および単語ベクトル（chiVe）が AWS 上で Open Data として公開されました | Amazon Web Services
- 97 users
- aws.amazon.com
- テクノロジー
- 2020/10/09
Amazon Web Services ブログ日本語形態素解析器 Sudachi の語彙データ（SudachiDict）および単語ベクトル（chiVe）が AWS 上で Open Data として公開されました多くの機械学習デベロッパーの方々が、AWS 上でさまざまなアルゴリズムの開発やモデルの構築を行なっています。中でも自然言語処理を行う際には、対象言語の言語ごとの辞書データや単語ベクトルデータを用いることが一般的です。これらのデータは GB 以上のサイズにおよび、また計算の際にも大量の GPU および CPU を必要とするため、従来こうしたモデルを構築する際には常にストレージおよびコンピューティングのリソースの調達が問題となってきました。AWS 上で自然言語処理モデルの開発を行う際には、Amazon SageMaker を用いて学習に必要なリソースを確保することで、ALBERT の
- AWS
- 自然言語処理
- あとで読む
- 形態素解析
- Sudachi
- nlp
- 言語
- 学習
- データ
GPT-2におけるテキスト生成
- 77 users
- tech.stockmark.co.jp
- テクノロジー
- 2021/02/03
GPT-2におけるテキスト生成
形態素解析を行うだけのバッチをつくる - クックパッド開発者ブログ
- 75 users
- techlife.cookpad.com
- テクノロジー
- 2021/03/08
研究開発部の原島です。今日は表題の渋いバッチをつくった話をします。あっちでも形態素解析、こっちでも形態素解析みなさん、形態素解析してますか？してますよね？クックパッドでもさまざまなプロジェクトで形態素解析をしています。いや、むしろ、しすぎです。プロジェクト A でレシピを解析し、プロジェクト B でもレシピを解析し、プロジェクト C でもレシピを解析し、... といった具合です。ちなみに、形態素解析（の結果）が必要なプロジェクトとしてはレシピの分類やレコメンド、各種分散表現（e.g., word2vec）や BERT の学習などがあります。もちろん、最終的に得たい解析結果が違うのであれば問題ありません。しかし、私が見たかぎり、ほとんどの場合は同じ（もしくは、同じにできそう）でした。であれば、解析器をインストール（→ Dockerfile を試行錯誤）解析対象を取得（→ SQL
RAGの処理で、リランクとベクトル検索でできることの違いを検証／解説してみる - Taste of Tech Topics
- 71 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2024/09/18
こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。概要 RAGの検索部分では、よくベクトル検索が利用されます。理由としては、入力が基本的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。今回は、なぜRAGはベクトル検索だけだと苦労が多
- RAG
- ベクトル検索
- 検索
- あとで読む
- LLM
日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
- 62 users
- kajyuuen.hatenablog.com
- テクノロジー
- 2022/02/14
概要こんにちは@kajyuuenです。日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。日本語ではデータ拡張という名前で知られています。ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。対応している手法現在daajaは
日本語の単語を適切な位置で区切って読みやすく改行してくれる軽量でオープンソースなライブラリ「BudouX」の機能＆採用例＆デモはこんな感じ、Chrome 119に実装予定で簡単に利用できる見込み
- 62 users
- gigazine.net
- テクノロジー
- 2023/10/01
日本語のページをブラウザで見ているとおかしな位置で改行されることが多いのですが、単語と単語の間にスペースを入れる英語などと異なり、日本語では分かち書きがされていないのが原因。単語の途中で文章が折り返されてしまう原因になっています。BudouXは機械学習モデルを利用して容量を抑えつつ、サードパーティーのAPIやライブラリに依存せずに分かち書きを行ってくれるオープンソースライブラリなので、読みやすい改行が実現できます。 Google Developers Japan: BudouX: 読みやすい改行のための軽量な分かち書き器 https://developers-jp.googleblog.com/2023/09/budoux-adobe.html BudouXの使用イメージは下図の通り。従来は画面幅によっては「最先端」や「テクノロジー」などの単語の途中で改行が行われてしまう事がありましたが、
人間と見分けがつかないほど自然な文章を書けるAI「GPT-3」の改良版AI「InstructGPT」一般公開、詩も執筆可能
- 61 users
- gigazine.net
- テクノロジー
- 2022/01/28
文章生成AI「GPT-3」はオンライン掲示板で人間とバレずに1週間会話できるほど違和感の少ない文章を生成できることで知られており、Microsoftのプラットフォームに採用されるなど大きな注目を集めています。一方でGPT-3には反イスラム教的なバイアスが存在することが指摘されるなど、生成される文章に偏りがあることも分かっています。そんなGPT-3の学習モデルを改良して偏りを抑えつつ文章生成精度も向上させた文章生成AI「InstructGPT」の一般提供が2022年1月27日に始まりました。 Aligning Language Models to Follow Instructions https://openai.com/blog/instruction-following/ OpenAI launches new GPT-3 model despite continued toxic t
- あとで読む
要約をAIが自動生成してくれるサービス『QuillBot』と『ELYZA DIGEST』｜これ買ってよかった | ライフハッカー・ジャパン
- 60 users
- www.lifehacker.jp
- 暮らし
- 2022/01/07
モバイルバッテリーとは呼べない。「ほぼポタ電」なコレ1台で有事の時もアウトドアも大活躍!【AmazonスマイルSALE】
BERTとは｜Googleが誇る自然言語処理モデルの仕組み、特徴を解説 | Ledge.ai
- 59 users
- ledge.ai
- テクノロジー
- 2020/06/12
サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。
- BERT
- 機械学習
- あとで読む
- AI
ChatGPT
- 50 users
- chatgpt.com
- テクノロジー
- 2024/05/14
ChatGPT helps you get answers, find inspiration and be more productive. It is free to use and easy to try. Just ask and ChatGPT can help with writing, learning, brainstorming and more.
- ChatGPT
- AI
13億パラメーターを持つGPT言語モデルをrinnaが公開、日本語に特化
- 49 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2022/01/27
GPTは、人間が使う会話や文章に出てくる単語の確率の組み合わせから次の単語の確率を計算する言語モデルだ。例えば、「確率（吾輩は猫である）＝確率（吾輩）×確率（は|吾輩）×確率（猫|吾輩,は）×確率（で|吾輩,は,猫）×確率（ある|吾輩,は,猫,で）」のような方法で計算する。この性質を用いて、「吾輩は」という単語を入力したとき、次の単語として確率が高い「猫」を予測できる。性能は14パープレキシティー rinnaが公開した日本語GPTでは、学習データとして、日本語のC4やCC-100、Wikipediaといったオープンデータを使用した。公開前に既に十分に学習させており、性能は約14パープレキシティー。これは、GPTが次の単語を予測するときに単語候補の数を14個に絞れる性能を意味する。そのため、一般的な日本語の特徴を持つ文章を自動生成できるという。 rinnaはこれまで、日本語の自然言語処理
続・MeCabの分かち書きを並列処理で高速化する
- 48 users
- zenn.dev/hpp
- テクノロジー
- 2022/11/16
まとめ Pythonから巨大なテキストファイルを並列に読み込み・処理・書き込みする方法を紹介読み込み: テキストファイルをバイト列として見て、プロセスごとにファイルの読み込み区間を割り振る処理: multiprocessingを用いた並列処理書き込み: プロセスごとにtmpファイルへ並列に書き込み & catによる結合はじめに日本語形態素解析器であるMeCabを用いると、日本語のテキストに対する解析や処理が簡単に実行できます。特に最近は、BERTをはじめとする深層学習モデルへの入力のための前処理として、MeCabなどを用いて文を単語単位に分割する「分かち書き」を行う機会が多くなっています。 MeCabはコマンドラインから実行することもできますし、Pythonなどからプログラム的に呼び出すことも可能です。特にコマンドラインから実行する場合は、インストールさえ終わっていれば以下の
ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか？
- 43 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2023/01/13
ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか？：ChatGPT入門 ChatGPTやその前身ともいえるInstructGPTは、GPTとは異なる目的を持ったモデルです。それ故にこれまでとは異なり、ユーザーの意図に沿ったテキストを生成できます。その違いを見てみましょう。連載目次 GPT、InstructGPT、そしてChatGPT ChatGPTはその名の通り、対話に特化した言語モデルです。GPT 3（GPT 3.5）をベースとしていますが、GPT 3からChatGPTが生まれるまでの間にはもう一つ重要な言語モデルがあります。それがInstructGPTです（InstructGPT自体はGPT 3をベースとしているようです）。では、GPT→InstructGPT→ChatGPTという進化がなぜ起きたのでしょう。InstructGPTについての論文
Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム
- 42 users
- tech.stockmark.co.jp
- テクノロジー
- 2021/06/07
ML事業部の金田です。今回は、ストックマークの提供する法人向けサービス「Anews」の裏側で動くビジネスニュース推薦システムについて、簡単に紹介いたします。 AnewsとはAnewsは組織変革のための情報収集＋コミュニケーションプラットフォームです。情報収集のためのコア機能としては、国内外３万メディアから収集したビジネスニュースから、利用者の興味・関心に合わせて記事を配信するサービスを提供しています。日々配信されるニュースから業務ニーズに直結するインサイトを獲得し、これを話題にユーザ同士が交流することで、組織全体の情報感度やコミュニケーションを促進させるのが、サービスの狙いです。事前準備：ことばの定義具体的な機能説明の前に、Anewsにおける基本的な概念について軽く整理します。 Anewsは1企業＝1集団としての利用を想定しています。以降ではこの集団をチーム、チームに所属する各利用者を
Googleの対話特化型AIとスマホで語り合えるアプリ「AI Test Kitchen」が自然すぎて完全に中の人がいるレベル
- 42 users
- gigazine.net
- テクノロジー
- 2022/05/12
Googleが、2022年5月12日から催されている年次開発者カンファレンス「Google I/O 2022」で、同社の自然言語処理AI「LaMDA 2」と、そのデモアプリの「AI Test Kitchen」を発表しました。 AI Test Kitchen https://aitestkitchen.withgoogle.com/ Google I/O 2022: Advancing knowledge and computing https://blog.google/technology/developers/io-2022-keynote/ 近日公開予定のアプリ「AI Test Kitchen」は、Googleの対話特化型AIである「対話アプリケーションのための言語モデル(Language Model for Dialogue Applications：LaMDA)」の第2世代を、ス
- AI
- Google
- GIGAZINE
- 言語
- app
超高精度の言語AI「GPT-3」は何がスゴい？要約、小説、コーディングなど広がる可能性
- 39 users
- www.sbbit.jp
- テクノロジー
- 2021/12/01
GPT-3とは？文章生成で何ができるのか GPT-3は「Generative Pre-trained Transformer - 3」の略で、OpenAIが開発した事前学習済み（Pre-trained）の文章生成型（Generative）の「Transformer」、その3番目のモデルを指します。この「Transformer」というのは自然言語処理向けの深層学習モデルのことで、「畳み込みネットワーク」「回帰的ネットワーク」に代表される機械学習モデルの一種ととらえてください。つまり、GPTはTransformerという学習モデルをベースにして、しっかりと事前学習を行い文章生成を行うようにカスタマイズされたAI（言語モデル）ということになります。「文章生成を行うAI」と一言で言っても、非常にさまざまな種類があります。例として「質問や問い合わせに答えるもの」「会話を成立させるもの」「自然な文章
- GPT-3
- あとで読む
- AI
Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
- 38 users
- cerebras.ai
- テクノロジー
- 2023/03/29
Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency. Abstract State-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed com
- nlp
- AI
- 機械学習
- GPT
- 文章
テキストデータのかさましを実装する - 一休.com Developers Blog
- 31 users
- user-first.ikyu.co.jp
- テクノロジー
- 2021/07/27
はじめにデータサイエンス部の平田です。ディープラーニングのモデルを作る際、学習データが少ないことが原因で精度が上がらない場合、データのかさまし（augmentation）を行うことがあります。画像の場合は、オリジナルに対して回転させたりノイズを少し加えることで同じラベル付けがされている別の画像を作り出すことができ、それを学習データに加えることで頑健なモデルになります。ただし、テキストの場合は回転させると意味不明になるのでどういう操作をしてかさましするかというのを考える必要があります。そこで、EDA(Easy Data Augmentation)というものが考案されました。参考 Synonym Replacement：文中の単語の内n個、同義語に置き換える Random Insertion：文中の単語をランダムに選んで同義語にしてランダムな場所にinsert、n回繰り返す Rand
Introducing Claude
- 14 users
- www.anthropic.com
- テクノロジー
- 2023/03/15
After working for the past few months with key partners like Notion, Quora, and DuckDuckGo in a closed alpha, we’ve been able to carefully test out our systems in the wild, and are ready to offer Claude more broadly so it can power crucial, cutting-edge use cases at scale. Claude is a next-generation AI assistant based on Anthropic’s research into training helpful, honest, and harmless AI systems.
- ai
- あとで読む
AIは人間と同じように言葉の意味を「理解」しているのか？
- 9 users
- gigazine.net
- テクノロジー
- 2021/12/24
近年では人工知能(AI)の研究が急ピッチで進められており、OpenAIの「GPT-3」に代表される「自然な文章を生成するAI」が登場しています。「AIはすでに『言葉を理解している』のではないか」と思う人も多いかもしれませんが、アメリカのサンタフェ研究所で複雑系科学の教授を務め、「Artificial Intelligence: A Guide for Thinking Humans」などの著者でもあるメラニー・ミッチェル氏は、記事作成時点でのAIは真の意味で「言葉を理解している」とは考えにくいとの説を述べています。 What Does It Mean for AI to Understand? | Quanta Magazine https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/ 「
- GIGAZINE
- 人工知能
- AI
- 言葉
文章要約AI「タンテキ」どう使う? 利用事例やユーザーの声を公開、独自の自然言語処理APIも公開バズグラフ - ロボスタロボスタ - ロボット情報WEBマガジン
- 8 users
- robotstart.info
- テクノロジー
- 2021/12/31
株式会社バズグラフでは、独自の自然言語解析技術を駆使した文章要約AI「タンテキ」を現在無料で公開している。同社では、このサービスがより便利になるよう日頃から文章要約AI「タンテキ」を利用しているユーザーにインタビューを行い、意見を取り入れながら日々の開発に努めており、この度、文章要約AI「タンテキ」活用方法の紹介も兼ねて、実際に行ったユーザーインタビューの内容を公式サイトにて公開したことを2021年12月28日に発表した。また、独自の自然言語処理システムのAPIを、同年11月1日より公開しており、現在連携企業やユーザーを募集中だ。文章要約AI「タンテキ」とは文章要約AI「タンテキ」は、独自の自然現処理エンジンにより、主にニュース記事を中心としたAIによる文章要約を可能としたサービスだ。簡単な会員登録(無料)を行うだけで、タンテキで公開している全ての機能を利用できる。同サービスは、文
自然言語処理ベクトル化の手法
- 8 users
- zenn.dev/yoshikawat64m
- テクノロジー
- 2022/11/16
はじめに文章を固定長ベクトルに変換する方法はないかなあと調べていたら、SentenseBertというものを見つけました.それ以外にもベクトル化にはいろいろな方法があるようで調べた内容を少しまとめてみようと思います. ベクトル化の用途ベクトル化することによる応用の仕方はいろいろですが、文書ベクトルの応用としては以下のようなことが可能です. 類似文書の検索文章間の類似度を測っておすすめの記事をレコメンド画像検索エンジン(文章ベクトルと画像ベクトルの類似度を測る) さまざま手法 word2vecに始まり、自然言語の機械学習によるベクトル化のアルゴリズムは常に改良されてきました. いくつか有名なものをピックアップして紹介します. word2vec(2013) 米グーグルの研究者、トマス、ミニコフらが開発しました。周辺語から中心単語(CBOW), あるいは中心単語から周辺語(Skip-gr
- Python
- あとで読む