Hiro_Matsunoのブックマーク - はてなブックマーク

Hiro_Matsuno id:Hiro_Matsuno

ブックマーク / qiita.com/wwwcojp (3)

大規模言語モデルと外部リソースとを融合させたアプリケーションを作ろう－langchainのご紹介－ - Qiita
はじめに近年、深層学習を用いた自然言語処理技術の進展が目覚ましいです。その中でも、GPT-3をはじめとする大規模言語モデル（LLM）には大きな可能性を感じています。最近ですと、AI 技術者以外にも大きなインパクトを与えたChatGPTが記憶に新しいでしょう。今後もLLMの進化は止まらないと予想されており、私たちもどうやって活用するかを具体的に検討すべきフェーズに入ったのではないでしょうか。しかし、LLMを実業務に適用するとなると、越えなければならない課題がいくつも出てきます。今回は、以下にあげた第2・第3のハードルを越えるために役立つlangchainというライブラリをご紹介します。第1のハードル：機密データの扱い LLMはOpenAPIのGPT-3等、モデル自体は公開されておらずWebAPIだけが提供されているというパターンが多いです。そのため、機密データを社外に送信すると
Hiro_Matsuno 2023/04/16
リンク
SQL等価性検証ツールCosetteを使ってみた - Qiita
はじめに皆さん、SQLチューニングしてますか？（唐突）私は仕事柄RDBMSのSQLチューニングをすることが多いのですが、たまにチューニングの一環で SQL文の書き換えをすることがあります。その際に問題になるのが、書き換えたSQL文が等価であるかどうかの確認が大変なことです。 SQL文を書き換えた場合には、想定通りの結果を取得できるか確認するために、テストをやり直す必要があります。これが開発早期のフェーズならまだましなのですが、結合テスト以降だと手戻りも多くかなりコストがかかりますし、既に本番運用が始まったシステムともなると、テスト自体が困難なこともあります。また、複雑なSQL文だと網羅的なテストケースを作成すること自体が困難であるため、完全に正しいと確信することはできません。なので、SQL文の書き換えの正しさを証明する良い手段はないかと考えていました。 SQLチューニングとは
Hiro_Matsuno 2021/12/27
リンク
日本語の文章をいい感じに文区切りするライブラリを作った - Qiita
はじめに昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。そんな私も自然言語処理技術やAIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい（しかし重要な）作業は、様々な前処理に関するものです。大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。クリーニング HTMLタグや記号等、テキスト中のノイズを除去正規化(normalization) 全角・半角や大文字・小文字等の統一文区切り(sentence segmentation) 文と文の区切りを検出し分割単語分割(tokenization) 文を単語の列に分割ストップワードの除去解きたいタスクに不要な単語を除去私は主にPythonを利用しているのですが、これらの中で日本語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目
Hiro_Matsuno 2020/05/26
リンク
1