タグ

ブックマーク / qiita.com/wwwcojp (3)

  • 大規模言語モデルと外部リソースとを融合させたアプリケーションを作ろう-langchainのご紹介- - Qiita

    はじめに 近年、深層学習を用いた自然言語処理技術の進展が目覚ましいです。 その中でも、GPT-3をはじめとする大規模言語モデル(LLM)には大きな可能性を感じています。 最近ですと、AI技術者以外にも大きなインパクトを与えたChatGPTが記憶に新しいでしょう。 今後もLLMの進化は止まらないと予想されており、私たちもどうやって活用するかを具体的に検討すべきフェーズに入ったのではないでしょうか。 しかし、LLMを実業務に適用するとなると、越えなければならない課題がいくつも出てきます。 今回は、以下にあげた第2・第3のハードルを越えるために役立つlangchainというライブラリをご紹介します。 第1のハードル:機密データの扱い LLMはOpenAPIGPT-3等、モデル自体は公開されておらずWebAPIだけが提供されているというパターンが多いです。 そのため、機密データを社外に送信すると

    大規模言語モデルと外部リソースとを融合させたアプリケーションを作ろう-langchainのご紹介- - Qiita
  • SQL等価性検証ツールCosetteを使ってみた - Qiita

    はじめに 皆さん、SQLチューニングしてますか?(唐突) 私は仕事RDBMSSQLチューニングをすることが多いのですが、たまにチューニングの一環で SQL文の書き換え をすることがあります。 その際に問題になるのが、書き換えたSQL文が等価であるかどうかの確認が大変なことです。 SQL文を書き換えた場合には、想定通りの結果を取得できるか確認するために、テストをやり直す必要があります。 これが開発早期のフェーズならまだましなのですが、結合テスト以降だと手戻りも多くかなりコストがかかりますし、既に番運用が始まったシステムともなると、テスト自体が困難なこともあります。 また、複雑なSQL文だと網羅的なテストケースを作成すること自体が困難であるため、完全に正しいと確信することはできません。 なので、SQL文の書き換えの正しさを証明する良い手段はないかと考えていました。 SQLチューニングとは

    SQL等価性検証ツールCosetteを使ってみた - Qiita
  • 日本語の文章をいい感じに文区切りするライブラリを作った - Qiita

    はじめに 昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。 そんな私も自然言語処理技術AIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい(しかし重要な)作業は、様々な前処理に関するものです。 大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。 クリーニング HTMLタグや記号等、テキスト中のノイズを除去 正規化(normalization) 全角・半角や大文字・小文字等の統一 文区切り(sentence segmentation) 文と文の区切りを検出し分割 単語分割(tokenization) 文を単語の列に分割 ストップワードの除去 解きたいタスクに不要な単語を除去 私は主にPythonを利用しているのですが、これらの中で日語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目

    日本語の文章をいい感じに文区切りするライブラリを作った - Qiita
  • 1