yk_uminamiのブックマーク - はてなブックマーク

2024年最新版：Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。特徴: 高速な処理速度メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

yk_uminami 2024/07/22

あとで読む

リンク

世界初、eスポーツ対戦直前の脳波から勝敗と強く関わるパターンを発見・実証～「実力が拮抗した試合」や「番狂わせ」を約80%の精度で予測～ | ニュースリリース | NTT

◆試合直前の脳波に勝敗と強く関わるパターンを発見しました。 ◆勝敗予測モデルに試合直前の脳波データを導入することで、従来困難だった「番狂わせ」のような不確定要素の多い試合結果も高精度に予測可能なことを実証しました。 ◆将来的には脳波のパターン分類に基づく個人のメンタルコンディショニングの確立が期待できます。日本電信電話株式会社（本社東京都千代田区、代表取締役社長：島田　明、以下「NTT」）は、eスポーツ対戦直前の脳波に勝敗と強く関わるパターンの存在を世界で初めて発見し、この脳波データから直後の試合結果を高精度に予測することに成功しました。本成果は、競技直前の脳に最適な状態が存在することを示すとともに、競技パフォーマンスの予測に脳情報が有効であることを示すものです。将来的に、スポーツ、医療、教育などさまざまな現場で活躍する人々の脳状態の最適化によるパフォーマンス向上や、熟練者の高度なスキ

yk_uminami 2024/07/19

科学

リンク

「AIに仕事を奪われた絵師」な訳だが｜走り書き

「当然の時代の流れだった」と思っているという話。最初に書いておくとこれはAIに反対する記事ではないので、規制を推奨する内容を期待して開いた人はブラウザバックをお勧めする。あと推敲全然しないで思いつくままに書いてるから、すごく読みづらい。それでも良いという人は以下にどうぞ。 2年ちょっとくらい前まで、イラストで食っていた。ただし、バリバリ企業と契約とかして1枚10万とか取っているプロイラストレーターではない。ココナラとかSkebとかSKIMAとか、そういうコミッションサイトでフリゲーやTRPGやVtuber用の立ち絵イラストを1枚1万弱で売り捌いている、いわゆる「アマチュア底辺絵師」だった。（そう呼ばれる層にいた、という意味で「底辺」という言葉をあえて使う）絵のクオリティは全身立ち絵で1万円ついたらいい方ってくらいの、「X(旧Twitter)でよく見るちょっと絵が上手い人」のラ

yk_uminami 2024/07/17

リンク

ELYZA-tasks-100を人間が解くと何点取れるのか？

と言ってもこの点数が低いのか高いのか分かりませんので、Claude 3.5 Sonnetの点数も見ていきましょう。 Claude 3.5 Sonnetの点数現時点で最強と名高いClaude 3.5 SonnetにもELYZA-tasks-100を解いてもらいます。単純に問題文だけを投げる形で、temperatureは0.8にしました。 import json import anthropic from datasets import load_dataset client = anthropic.Anthropic( api_key="APIキー", ) dataset = load_dataset("elyza/ELYZA-tasks-100") test_set = dataset["test"] results = {} for i, example in enumerate(t

yk_uminami 2024/07/17

LLM

リンク

【思考翻訳】単語ごとに担当脳細胞があると判明！ - ナゾロジー

脳細胞ごとに担当する単語がある新たな研究では脳細胞ごとに担当する単語が存在することがしめされました / Credit:Canva . 川勝康弘横浜には明治時代に作られたとされる古い歌があります。「赤い靴を履いた女の子、異人さんに連れられて行っちゃった」横浜市の小学生ならば音楽の授業でこのフレーズを幾度となく歌ったことがあるかもしれません。この短い1節を分解してみると、そのなかには「赤・靴・履く・女の子・異人・連れられる・行った」という7つの単語から構成されていることがわかります。これまでの研究により、私たちの脳内には「意味」や「カテゴリー」に反応する細胞があることが知られています。たとえば、靴や長靴といった特定の物体について聞いた時、脳内では単語そのものの意味に加えて「これは物体だ」として理解するのを助けるためのカテゴリー細胞が活性化するのです。また、カテゴリー細胞には女の子・

yk_uminami 2024/07/16

科学

リンク

ローカルLLMに小説を書いてもらう v2｜Kohya S.

この時はそれぞれ単独のプロンプトで小説家と編集者を演じさせましたが、今回はもうすこしシステマチックに、段階を踏んで小説を生成させてみます。プロンプトの検討等にはkgmkm氏のリポジトリや記事を参考にさせていただきました。この場を借りてお礼申し上げます。仕組みを相談するのにClaude (3.5 Sonnet)とやり取りをしていましたので、この記事の草稿も書いてもらいました。所々、なんとなく冗長だったり文体が違ったりしますが、面倒なのでそのままにしてあります（すみません）。生成スクリプト生成スクリプトとプロンプト定義はgistに置きました。 https://gist.github.com/kohya-ss/68d41a9720bfbdfd87869ec970142f4b 概要近年、大規模言語モデル（LLM）の発展により、AIによる文章生成の可能性が大きく広がっています。今回はローカル環

yk_uminami 2024/07/16

リンク

軍事研究家・小泉悠氏が「人の脳が戦場になる」解説　「信じない人」が狙われる＜認知戦インタビュー詳報＞：東京新聞 TOKYO Web

交流サイト（SNS）の浸透を背景に、戦争は、人々の考え方の主体となる「脳」を巡る争い「認知戦」に発展しつつある。「人の脳が戦場になる」とは、どういうことなのか。ロシア・旧ソ連諸国を専門とする軍事研究家で、安全保障問題に詳しい小泉悠・東京大学先端科学技術研究センター准教授（42）に聞いた。（聞き手・滝沢学）認知戦　人の脳など「認知領域」を標的にした戦い。世論の誘導や敵対勢力の撹乱を狙う「情報戦」の一つ。マスメディアを通じたプロパガンダ（宣伝）の流布だけでなく、SNSなどで刺激的な情報発信を繰り返し、人の頭の中に直接働きかけて考え方を先鋭化させ、対立をあおって社会を弱体化させる。陸海空や宇宙、サイバー空間と並ぶ6番目の戦闘領域として「認知領域」が捉えられ、各国で研究が進む。日本では2022年の防衛白書で初めて「認知戦」の用語が登場した。

yk_uminami 2024/07/16

リンク

2023-24年のKaggleコンペから学ぶ、NLPコンペの精度の上げ方

LLM関係のコンペがかなり多かったですね。ベースラインノートブック最近はほとんどのコンペがHuggingfaceのTrainerを使って学習が行われます（テーブルデータにおけるscikit-learnのような立ち位置です）。ChrisのNotebookは非常にシンプルにまとまっているのでぜひ参考にしてください。分類（＋RAG）回帰、分類固有表現抽出 NLP・精度上昇で検討することデータを増やす LLMによるデータ生成 + ラベリング（CommonLit2 1st, DAIGT 1st, LLM Sci Exam 5th, PIIDD 1st） LLMによるデータ生成は必ずしも効果があるとは限らないデータ生成方法も現状はベストプラクティスはない Mistral, Mixtral系列でデータ生成がよさそうな感じはするなお、LLMがラベル付けできないタスクでは厳しい印象です TT

yk_uminami 2024/07/16

あとで読む

リンク

LLMに面倒なことをやらせるソフト「Code Cooker」の紹介

LLMに面倒なことをやらせたい面倒なことはChatGPTにやらせようという本の著者のからあげです。書籍では、様々な面倒なことをChatGPTにやらせています。ChatGPT単体（コアの部分）は、基本的にテキスト（言葉）を生成することしかできないので、どうやって面倒なことをやらせているかというと、ChatGPTの生成したテキストで、拡張機能を操作することで、実現しています。イメージ的には以下のように、ChatGPTの手足のように拡張機能を使う感じです。拡張機能としては、色々ありますがChatGPTが生成したコードを実行できるAdvanced Data Analysis（Code Interpreter）が重要かつ代表的な機能となります。面倒なことはChatGPTにやらせよう（講談社）より引用この機能はChatGPT独自のものだったのですが、最近はGeminiのGoogle AI St

yk_uminami 2024/07/16

LLM

リンク

Dify API と GASのカスタム関数を組み合わせてスプレッドシートからLLMを利用する

この記事では、LLMアプリケーション開発プラットフォームであるDifyとGoogle Apps Script（GAS）のカスタム関数を使って、スプシに記載した画像URLに写っているのがわんこかどうかをDifyを使って自動で判定してみました。なぜDifyとGASカスタム関数の組み合わせなのか？ GASのカスタム関数から直接OpenAIなどのAPIを叩くのが実装としては一番早いのですが、RAGを使いたい、複数のGASから呼び出したい、GAS以外からも呼び出したい、LLMのモデルを柔軟に変えたい、などが発生することも多いです。そのため実際にLLMアプリケーションを作っていく際は単純にAPIを叩くだけでは解決できないことがおおく、LLMに関わる処理をどこかにまとめておき、まとめておいたものをAPI経由で呼び出すという形にするのが好ましいです。そこで登場するのがDifyです。 Difyはチャッ

yk_uminami 2024/07/16

LLM

リンク

『第七王子』のEDクレジットを見ると、なぜ日本アニメの未来がわかるのか (1/4)

アニメ『転生したら第七王子だったので、気ままに魔術を極めます』を制作したアニメスタジオ「つむぎ秋田アニメLab」櫻井司社長へのロングインタビューを前後編でお届けする (C)謙虚なサークル・講談社／「第七王子」製作委員会〈後編はこちら〉人気急上昇のなろう原作アニメが、他作品とひと味違う理由たびたびX（Twitter）のトレンド入りを果たすなど、テレビアニメ『転生したら第七王子だったので、気ままに魔術を極めます』（以下、『第七王子』）が好評だ。実はこの作品の制作スタジオ「つむぎ秋田アニメLab」の本社は秋田県にあり、プロダクション成果物の多くを内製で生みだしている。2024年5月にはバンダイナムコフィルムワークスとの業務提携が発表されたことでも注目を集めた。元請け・下請けの関係が複雑に絡み合い、海外への依存度も高い一般的なアニメ制作とはまったく異なるプロセスで生み出された本作の舞台裏

yk_uminami 2024/07/14

まんまDXの話だ。新しいツールに合わせて業務再編するのが◎よね。

アニメ

リンク

どうやったら連続性を維持したまま意識をアップロードできるのか？──『意識の脳科学「デジタル不老不死」の扉を開く』 - 基本読書

意識の脳科学　「デジタル不老不死」の扉を開く (講談社現代新書) 作者:渡辺正峰講談社Amazon SFの世界ではよく人間の意識をアップロードして肉体の縛りから解放される、「マインドアップロード」と呼ばれる技術が扱われる。実際、人間の意識とはけっきょく脳内の化学的な作用の結果生まれるものであるという立場に立つのであれば、その作用をデジタル上でも機械上でも再現できればそこに「わたし」が宿るはずである。今はまだSFの中の話にすぎないが、現実でもBMI(ブレイン・マシン・インタフェース)技術や脳神経科学の進展もあり、徐々に現実味を増してきている──ときて、本書『意識の脳科学』はまさにそうした「意識のアップロード」をテーマにした一冊だ。著者の渡辺正峰は神経科学を専門とする東京大学大学院工学系研究科の准教授で、研究だけでなく自身でも意識のアップロードを目指すスタートアップ「MinD in a Dev

yk_uminami 2024/07/10

科学

リンク

RAG vs ファインチューニング（コーディング性能で比較）

はじめまして。ナレッジセンスの門脇です。生成AIやRAGシステムを活用したサービスを開発しています。本記事では、「RAG vs ファインチューニング」について、DSL（ドメイン固有言語）をコーディングする性能という観点から比較した論文を、ざっくりまとめます。この記事は何この記事は、RAG vs ファインチューニングに関する論文[1]を、日本語で簡単にまとめたものです。「RAG vs ファインチューニング」の論文は、他にもあります。例えば、時事問題などのシンプルな知識の質疑応答であれば、RAGの方が優れています。[2] 今回の論文では、「ドメイン固有言語（DSL）をコーディングする性能」をに焦点を当てて比較しています。一見するとファインチューニングの方が有利そうなタスクについて比較しているのが面白い点です。本題ざっくりサマリーこの論文では、RAGとファインチューニングの性能比較を

yk_uminami 2024/07/10

LLM

リンク

ChatdollKitで好きなアバターをAIアシスタントにしてみる

2024年はブログ更新頑張るぞ！とか言いながら、すっかり更新が滞っておりました。何をやっていたかというと、ChatdollKitでアバターをAIアシスタント化してみよう！という試みにはまっております。。 ChatGPTなど、LLMモデルのAPIを叩いてアバターにおしゃべりさせることってできないかな？と考えてみたときに、見つけたうってつけの開発フレームワークが「ChatdollKit」。これがまたすばらしい作りこみで、デモ通り動かすまでならコード一切触らず、2時間もかからずできちゃいます。デモ通りに動かしてみても「うわー！」という感じなのですが、拡張性の高さにも感動します。無料で公開されてるのすごいよ… ということでまだまだ始めたばかりなのですが、初心者がChatdollKitを触ってみてつまづいたところ、追加で試してみたことをいくつか備忘録的に残しておきます。

yk_uminami 2024/07/05

リンク

Microsoft、RAGの機能を拡張、強化させたGraphRAGを一般利用可能に | gihyo.jp

Microsoft⁠⁠、RAGの機能を拡張⁠⁠、強化させたGraphRAGを一般利用可能に Microsoftは2024年7月2日、LLMが生成する出力の精度を向上させるために利用するRAG（検索拡張生成）の機能を拡張/強化した「GraphRAG」をGitHub上で公開した。 GraphRAG: New tool for complex data discovery now on GitHub -Microsoft Research Blog Welcome to GraphRAG RAG（Retrieval-Augmented Generation：検索拡張生成）は、ユーザーのクエリに基づいて特定の分野や組織の内部ナレッジベースの情報を検索し、その結果を参照してAIの回答に組み合わせる技術。モデルを再トレーニングすることなく、これらの情報を生成結果に即座に反映できる。一方、通常のRAG

yk_uminami 2024/07/05

LLM

リンク

技術的負債を抱えたレガシーコード。変なメソッド名と入り組んだロジック、リファクタリングするならどちらが先？（後編）

技術的負債を抱えたレガシーコード。変なメソッド名と入り組んだロジック、リファクタリングするならどちらが先？（後編）ソフトウェアの品質をテーマに研究をしている名古屋大学森崎研究室は、ソフトウェアの技術的負債をなんらかの形で数値化する手法の研究の一環として、コードの読みにくさの原因となる要因などを分析した研究結果を発表するイベントをオンラインで開催しました。この記事ではそのダイジェストを紹介します。記事は前編と後編の2つに分かれています。今お読みの記事は後編です。森崎氏による補足説明前編では、グループA（命名的問題）より、グループB（構造的問題）の方が正答率が大きいということ。一方でグループA（命名的問題）よりグループB（構造的問題）の方が読みにくさを感じた、という点に統計的に有意な差があったことが発表されました。発表の後、オンラインイベントの参加者からの質問について森崎氏と和田氏

yk_uminami 2024/07/02

あとで読む

リンク

社内用AIアシスタント「おっさんずナビ」を作った話、そして人間らしく振る舞う重要性を認識した話 | Raccoon Tech Blog [株式会社ラクーンホールディングス技術戦略部ブログ]

こんにちは、羽山です。みなさんは業務に LLM（生成AI）を活用していますか？ラクーングループでは生成系AI LT大会を開催するなど、積極的な利用を推し進めています。そこで今回は私がその生成系AI LT大会で発表し、隙間時間で開発して、社内で幅広く利用されるに至った AIアシスタント「おっさんずナビ」を紹介します。おっさんずナビは LLM + RAG（Retrieval-Augmented Generation）を利用した Slackボットで「ラクーンホールディングスの社風を教えてください」という質問に社内事情を踏まえた回答をしてくれます。ファインチューニングを利用せず RAG のみで精度を高めているのと、ベクトルDBなどの外部リソースを必要としないのがポイントで、使い込まれた Slack ワークスペースさえあればアプリを起動するだけで社内事情通のAIアシスタントができあが

yk_uminami 2024/07/02

LLM

リンク

Gemini API の Function Calling 機能で LLM Agent を実装する

LLM Agent 入門データ処理パイプラインと LLM Agent の違い Google Cloud の Gemini API には Function Calling 機能が実装されており、基盤モデルの Gemini に「外部 API を利用して回答に必要な情報を収集する」という動作が追加できます。ここでポイントになるのは、「どの API をどのように使用すれば回答に必要な情報が得られるか？」という部分を Gemini 自身に考えさせるという点です。これを利用すると、いわゆる LLM Agent が実装できます。集めるべき情報の種類や処理の手順があらかじめ決まっている場合は、LLM によるテキスト生成を組み込んだデータ処理パイプラインを実装する方が安定的に動作する（期待する結果が確実に得られる）はずですが、特定の手順を前提としない柔軟な処理を実現する際は LLM Agent が向いて