本文「Pandas」を検索 - はてなブックマーク

1 - 17 件 / 17件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Pandasの検索結果1 - 17 件 / 17件

カイ二乗検定は何をやっているのか｜コグラフ株式会社データアナリティクス事業部
- 345 users
- note.com/cograph_data
- テクノロジー
- 2024/10/07
こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び考え直すと、すんなり理解できたというお話です。カイ二乗検定の手順まず、サイコロを何度も投げ、出た目の回数（実測値）を記録します。偏りのないサイコロでは、全ての目が均等に出るはずです。この理論的な回数を理論値と呼びます。次に、実測値と理論値の差を計算し、その差を二乗してから理論値で割ります。この計算結果を「ズレ」と呼びま
- 統計
- あとで読む
- statistics
- 数学
- データ
- math
- 統計学
- 技術
医薬品検索にベクトル検索を導入したら、デフォで検索ニーズをほぼ満たせそうだった話
- 172 users
- zenn.dev/minedia
- テクノロジー
- 2024/09/17
どんな人向けの記事？医薬品のような難しい検索ニーズにこたえるためにベクトル検索を利用する知見を見てみたい MySQLの全文検索と、ベクトル検索の精度や速度を比較してみたいベクトルDBとEmbeddingモデルを利用した簡単なベクトル検索の実装方法を知りたい医薬品の検索ニーズは多様なので、ベクトル検索で解決できるか試したい 1つの医薬品を指す名称は、複数存在するため医薬品検索は意外と面倒な問題です。例えば、日本人なら頭痛や生理痛、発熱したときに「ロキソニン」を飲んだことがあるかもしれません。この名称は商品の名称ですが、成分の名称は「ロキソプロフェンナトリウム水和物」です。さらに、ロキソプロフェンには錠剤以外にもテープやパップといった剤形の違いがあります。そして最後に、ロキソプロフェンを作っている会社は複数あるので、末尾に「トーワ」や「ファイザー」などの組み合わせが存在します。ロキ
Python in Excel が正式リリースされたので触ってみる
- 57 users
- zenn.dev/ymasaoka
- テクノロジー
- 2024/09/18
Python in Excel が GA (General Release) Microsoft 365 Insider Program で公開されていた Python in Excel が一般提供開始され、Windows 版 Excel アプリで利用できるようになったので、試してみた。 Python in Excel の導入により、Excel のデータを Python ライブラリを使用して分析できるようになった。これにより、開発者などが Excel 上でのデータ分析を行うにあたり、使い慣れた Python を用いることができるようになるとのことで、Python ユーザーとしてはうれしいアップデート。インターネット接続前提の機能 Python in Excel は、裏で Python ランタイムがある Microsoft Cloud にあるコンテナーが利用され、コンテナー内で Pyth
- python
- Excel
- あとで読む
- 未分類
- セキュリティ
- 開発
- Windows
- news
- ネタ
チームで培われたベストプラクティスをlintとして周知する - エムスリーテックブログ
- 42 users
- www.m3tech.blog
- テクノロジー
- 2024/10/02
こんにちは。AI・機械学習チームの氏家（@mowmow1259）です。エムスリー福岡オフィスの一人目のエンジニアとして福岡で働いています。マクドナルドの月見バーガーが好きで、今年も発売開始当日に食べに行きました。私が所属するAI・機械学習チームでは基本的に2週間から1ヶ月程度で新規プロダクトをリリースするなど、高速にプロダクトを開発しています。その過程で、「この書き方は落とし穴があるから使わない方がいい」といった開発に際したベストプラクティスが溜まっていきます。そういったベストプラクティスはレビューでの指摘や技術共有会*1でチームに浸透してきますが、レビュー負荷や新メンバーへの周知などに課題がありました。この記事では、それを解決するためにベストプラクティスをLinterの独自ruleとして規定し、CIで自動検知することでチーム全体に周知する取り組みについて紹介します。独自ru
Python で作る協調フィルタリング入門：カレー推薦システム - Qiita
- 34 users
- qiita.com/Tadataka_Takahashi
- テクノロジー
- 2024/09/21
はじめにカレー好きの皆さん、こんにちは！「もっと自分好みのカレーに出会いたい」「友達にぴったりのカレーを提案したい」と思ったことはありませんか？今回は、そんな夢を叶える魔法のような AI 技術、「協調フィルタリング」を使って、カレー推薦システムを作ってみましょう。この記事で学べることカレー好きの皆さん、協調フィルタリングを学ぶことで、こんな素敵な体験ができるんです： AIの実践的な使い方を知る: NetflixやAmazonなど、普段使っているサービスの裏側で動いているAI技術を、カレーという身近な題材で理解できます。難しそうなAIも、こうして実践的に学べば、とても親しみやすいものだとわかりますよ。個人の好みに合わせる技を習得: 「この人にはこのカレーがぴったり！」というマッチングの裏側にある技術を学べます。これは、カレーショップのオーナーさんや、友達にぴったりのプレゼントを選びた
- 推薦
- あとで読む
- qiita
- python
Databricks情報を手に入れろ！？Databricks関連書籍やウェブ上のポインタなど（長い）
- 26 users
- blog.akuwano.net
- テクノロジー
- 2024/09/15
こんにちわ！Databricksはじめたいけど情報が、、、ない、、、？という方？あるよー！ここにあるよー！というわけで、Databricks関連情報をまとめていきたいと思います。書籍まずはこれ「データブリックス-クイックスタートガイド」Databricksとはなぜ生まれてきたのか、どういうアーキテクチャなのか、といった最初の一歩がうまく書かれている本です。 Unity Catalogなどが入る前の本なので若干古いのですが、アーキテクチャの思想や基本的な部分についてはわかりやすいのでぜひ。僕もここから入りました。つぎはこれ、「Apache Spark 徹底入門」、Apache Sparkの書籍ですが、Databricksの情報も入っております。まずは基本となるSparkの知識を仕入れつつDatabricksの情報も仕入れていきましょう！同人誌有志の方々が出版されているDatabr
- databricks
- データ
- oss
- database
- あとで読む
LangChain v0.3 クイックスタートガイド - Python版｜npaka
- 5 users
- note.com/npaka
- テクノロジー
- 2024/09/16
Python版の「LangChain」のクイックスタートガイドをまとめました。・langchain 0.3.0 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の計算や知識と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。 3. LangChain のモジュール「LangChain」は、言語モデルアプリケーションの構築に使用できる多くのモジュールを提供します。モジュールを組み合わせて
- Python
国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog
- 5 users
- tech-blog.abeja.asia
- テクノロジー
- 2024/09/20
ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択され、その中で大規模言語モデルの開発を行っていました。その際にモデルの開発と同時に日本語用の学習コーパスを構築しました。 www.abejainc.com そして、この構築した日本語用の大規模言語コーパス、すなわち言語モデル用の学習データセット ABEJA-CC-JA を公開しました！商用利用も可能です。ここでは、公開したデータセットについてご紹介します。構築したデータセット ABEJA-CC-JAについて元データ: Common Crawl 2019年から2023年までを対象に、計41のtimestamp データセットのサイズ : 約430Bトークン Mixtral8x7bのtokenizerでのtoken数約407B (4070億)文字日本語公開コーパスとして
キャラクター付けを目的としたファインチューニング-ローカルLLMの底力 | IIJ Engineers Blog
- 4 users
- eng-blog.iij.ad.jp
- テクノロジー
- 2024/10/03
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。こんにちわ。とみーです。皆様いかがお過ごしでしょうか？今回色々ローカルLLMの活用法を模索する中で、やっぱファインチューニングも必要だということで取り組んでいたりします。その内容について、知った内容等をまとめてみました。 RAGはやっぱり便利だ-この技術の活用法を模索中実は現在、社内情報を使ったRAG(Retrieval Augmented Generation)向けチャットをさらに良いものにするためにどういう対応が必要かを調べて回ったりしています。これまでの投稿を見ていただけ
- blog
採択されるプロポーザルを書こう!! - Qiita
- 4 users
- web.archive.org
- テクノロジー
- 2024/09/24
良いプロポーザルと悪いプロポーザル私は去年、PyConJPのプロポーザルの審査員を担当しました。プロポーザルの審査員とは登壇希望者が提出する登壇内容の予稿、プロポーザルを評価する人のことです。審査プロセスを理解していないプロポーザルが多く残念でもったいないと感じたため、審査プロセス、審査員の考え方を紹介しつつ審査を通過するプロポーザルの書き方をレクチャーします。なお、この文章でのプロポーザルとは、『ジェネリクス実装のプロポーザル』のような機能提案の文脈で使われる言葉ではなく、イベントの用語で『Call for Proposal』(応募トークの募集)などの文脈に由来する、イベント登壇の予稿案のことです。1 3つの背景と3要件プロポーザルを通すには業界にある3つの背景とそこから導き出される3要件を遵守した上でプロポーザルを書くことが必要です。 3つの背景は以下です。基本的にイベント
品質マネジメントシステム（ISO 9001）実装方法 - Python転職初心者向けエンジニアリングブログ
- 4 users
- pythonjp.ikitai.net
- テクノロジー
- 2024/09/29
品質マネジメントシステム（ISO 9001）品質マネジメントシステム（QMS）は、組織が顧客満足を向上させ、製品やサービスの品質を一貫して提供するための体系的なアプローチです。ISO 9001は、国際的に認められた品質管理の基準であり、さまざまな業種で適用可能です。本記事では、ISO 9001の基本概念、構成要素、実装方法、そしてその効果について詳しく解説します。また、具体的なコード例を通じて、QMSの一部であるプロセスの管理方法についても触れていきます。 ISO 9001の概要 ISO 9001は、品質管理の国際基準であり、1987年に初めて発行されました。最新版は2015年に発行され、リスクベースアプローチやプロセスアプローチを強調しています。ISO 9001は、以下の要件を通じて組織の品質管理を促進します。顧客のニーズを理解し、満足させること。品質方針の策定とコミュニケーション
- あとで読む
Pythonデータ可視化マスター講座：Seaborn、Pandas、Matplotlibを使った実践的データ分析と視覚化テクニック - Qiita
- 4 users
- qiita.com/negisys
- テクノロジー
- 2024/10/04
1. データサイエンスのための可視化ライブラリ入門データ分析や機械学習において、データの可視化は非常に重要な役割を果たします。Pythonには、データ可視化のための強力なライブラリがいくつか存在します。今回は、その中でも特に人気の高いSeaborn、Pandas、Matplotlibの3つのライブラリを使って、データの可視化について学んでいきましょう。これらのライブラリは、それぞれ異なる特徴を持っていますが、組み合わせて使用することで、より効果的なデータ可視化が可能になります。Pandasはデータの操作と分析、Matplotlibは基本的なプロット作成、Seabornは統計的なデータ可視化に特化しています。まずは、必要なライブラリをインポートし、サンプルデータを作成しましょう。 import pandas as pd import matplotlib.pyplot as plt i
- Python
Excel内でPythonコードを生成・実行「Copilot in Excel with Python」が登場
- 3 users
- ascii.jp
- テクノロジー
- 2024/09/18
Microsoftは、9月16日（米国時間）、Excel上で生成AIアシスタントのMicrosoft Copilotが、Pythonのコードを生成・実行してくれる「Copilot in Excel with Python」のパブリックプレビューを開始した。 Copilot in Excel with Pythonは、Excelに組み込まれたCopilotが自然言語でを介して、Pythonのコードを自動生成してくれる機能。Pythonの知識を持たなくても、Excel上でデータのグラフ化や、クリーニング、機械学習、予測分析などが可能になる。生成されるコードも解説付きで提示される。 Copilot in Excel with Pythonにデータの視覚化を依頼、Pythonコードを作成してグラフをExcelに挿入してくれるこのCopilot in Excelの機能は、同タイミングで一般提供を開
- あとで読む
LLMアキネータ対戦環境を作ってみた
- 3 users
- zenn.dev/robustonian
- テクノロジー
- 2024/09/17
実装コーディングルールを明確化できたので、上記の仕様でコーディングを行いました。具体的には、下記の手順で実施しました。人狼ゲーム用に作った汎用LLM応答関数をモジュール化（OpenAI API, Gemini API, Ollama APIに対応）上記関数の入出力情報と、それ以外の部分の仕様をCalude 3.5 Sonnetに与えてコーディングを依頼得られたPythonコードを手作業で試行錯誤しながら修正 LLM人狼よりもかなり単純なコードであり、Claudeに依頼してから動かすまでは30分もかからなかったと思います。その後の検証や微調整、キーワードリストの作成の方が何倍も時間かかりました。参考までに、この記事の執筆時点でのmain.pyのソースコードは下記のとおりです(単体では動かないので、プロンプト等の参考程度に見てください)。 main.pyのソースコード import
効率的なコードコンペティションの作業フロー | ho.lc
- 3 users
- ho.lc
- テクノロジー
- 2024/10/05
Kaggle の Code Competition で Jupyter Notebook 形式のコードを提出する機会が多くなってきました。開発効率を考えるとブラウザを使うことなくサブミッションを作成したり更新する作業フローが欲しくなります。ブラウザをなるべく使わない作業フローを紹介し、Kaggle に必要な機能が何かを考察します。まとめ¶ 長いので3行でまとめると、実装するコードは Dataset として Kaggle にアップロードするコンペに投稿する Notebook は Dataset にあるコードを呼び出すだけ Notebook も Dataset も Kaggle CLI 経由で VSCode から更新してアップロードするということです。モチベーションはコードベースの大規模化¶ Kaggle の solution は大規模化していくことがあります。例えば icecube
［pandas超入門］データセットの前処理をしてみよう
- 3 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2024/09/20
前回はタイタニックデータセットをpandasに読み込んで、その概要を調べた後、性別と生存率、または旅客クラスと生存率に関連があるかどうかなどを見てみました。このとき、欠損値を含む列（'Cabin'列）などについてはそのままにしていました。今回はこのような列をどう処理すればよいのかや、機械的な処理が簡単になるように性別や旅客クラスを数値データに変換する方法などを見ていきます。このような作業のことを「前処理」と呼びます。前処理はデータセットを機械学習やディープラーニングで適切に取り扱えるようにするための重要なステップですが、今回はその練習のようなものです。取り掛かる前に、タイタニックデータセットの内容をDataFrameオブジェクトに読み込んでおきましょう（タイタニックデータセットは前回同様にpandasのGitHubリポジトリからダウンロードしました）。
「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 | IT Leaders
- 3 users
- it.impress.co.jp
- テクノロジー
- 2024/09/19
IT Leaders トップ＞テクノロジー一覧＞スキルアップ＞市場動向＞「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施スキルアップスキルアップ記事一覧へ [市場動向] 「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 Pythonを使ったデータ分析の実践的なテクニックを問う 2024年9月19日(木)日川佳三（IT Leaders編集部）リスト一般社団法人Pythonエンジニア育成推進協会は2024年9月18日、Python認定試験「Python 3 エンジニア認定データ分析試験」の上位試験「Python 3 エンジニア認定データ分析実践試験」を開始した。Pythonを使ったデータ分析の実践的なテクニックを問う試験で、全国300カ所の試験センターで通年実施する。受験料（税別）は1万2000円
- Python