並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

Pandasの検索結果1 - 17 件 / 17件

  • カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部

    こんにちは。コグラフ株式会社データアナリティクス事業部の塩見です。 私は「カイ二乗検定」に対して、当初は納得できない部分がありました。やりたいことに対して、必要以上に複雑な手法のように感じたからです。同じような疑問を持つ方も多いのではないでしょうか。この記事では、私が「カイ二乗検定」を理解し納得するまでの過程をお伝えします。 結論から言いますと、一度頻度論を離れてベイズ統計の視点で考えてみたところ、実は非常に単純なことを行っていると気づきました。その後、カイ二乗検定を再び考え直すと、すんなり理解できたというお話です。 カイ二乗検定の手順まず、サイコロを何度も投げ、出た目の回数(実測値)を記録します。偏りのないサイコロでは、全ての目が均等に出るはずです。この理論的な回数を理論値と呼びます。 次に、実測値と理論値の差を計算し、その差を二乗してから理論値で割ります。この計算結果を「ズレ」と呼びま

      カイ二乗検定は何をやっているのか|コグラフ株式会社 データアナリティクス事業部
    • 医薬品検索にベクトル検索を導入したら、デフォで検索ニーズをほぼ満たせそうだった話

      どんな人向けの記事? 医薬品のような難しい検索ニーズにこたえるためにベクトル検索を利用する知見を見てみたい MySQLの全文検索と、ベクトル検索の精度や速度を比較してみたい ベクトルDBとEmbeddingモデルを利用した簡単なベクトル検索の実装方法を知りたい 医薬品の検索ニーズは多様なので、ベクトル検索で解決できるか試したい 1つの医薬品を指す名称は、複数存在するため医薬品検索は意外と面倒な問題です。 例えば、日本人なら頭痛や生理痛、発熱したときに「ロキソニン」を飲んだことがあるかもしれません。この名称は商品の名称ですが、成分の名称は「ロキソプロフェンナトリウム水和物」です。 さらに、ロキソプロフェンには錠剤以外にもテープやパップといった剤形の違いがあります。 そして最後に、ロキソプロフェンを作っている会社は複数あるので、末尾に「トーワ」や「ファイザー」などの組み合わせが存在します。ロキ

        医薬品検索にベクトル検索を導入したら、デフォで検索ニーズをほぼ満たせそうだった話
      • Python in Excel が正式リリースされたので触ってみる

        Python in Excel が GA (General Release) Microsoft 365 Insider Program で公開されていた Python in Excel が一般提供開始され、Windows 版 Excel アプリで利用できるようになったので、試してみた。 Python in Excel の導入により、Excel のデータを Python ライブラリを使用して分析できるようになった。 これにより、開発者などが Excel 上でのデータ分析を行うにあたり、使い慣れた Python を用いることができるようになるとのことで、Python ユーザーとしてはうれしいアップデート。 インターネット接続前提の機能 Python in Excel は、裏で Python ランタイムがある Microsoft Cloud にあるコンテナーが利用され、コンテナー内で Pyth

          Python in Excel が正式リリースされたので触ってみる
        • チームで培われたベストプラクティスをlintとして周知する - エムスリーテックブログ

          こんにちは。AI・機械学習チームの氏家(@mowmow1259)です。 エムスリー福岡オフィスの一人目のエンジニアとして福岡で働いています。 マクドナルドの月見バーガーが好きで、今年も発売開始当日に食べに行きました。 私が所属するAI・機械学習チームでは基本的に2週間から1ヶ月程度で新規プロダクトをリリースするなど、高速にプロダクトを開発しています。 その過程で、「この書き方は落とし穴があるから使わない方がいい」といった開発に際したベストプラクティスが溜まっていきます。 そういったベストプラクティスはレビューでの指摘や技術共有会*1でチームに浸透してきますが、レビュー負荷や新メンバーへの周知などに課題がありました。 この記事では、それを解決するためにベストプラクティスをLinterの独自ruleとして規定し、CIで自動検知することでチーム全体に周知する取り組みについて紹介します。 独自ru

            チームで培われたベストプラクティスをlintとして周知する - エムスリーテックブログ
          • Python で作る協調フィルタリング入門:カレー推薦システム - Qiita

            はじめに カレー好きの皆さん、こんにちは!「もっと自分好みのカレーに出会いたい」「友達にぴったりのカレーを提案したい」と思ったことはありませんか?今回は、そんな夢を叶える魔法のような AI 技術、「協調フィルタリング」を使って、カレー推薦システムを作ってみましょう。 この記事で学べること カレー好きの皆さん、協調フィルタリングを学ぶことで、こんな素敵な体験ができるんです: AIの実践的な使い方を知る: NetflixやAmazonなど、普段使っているサービスの裏側で動いているAI技術を、カレーという身近な題材で理解できます。難しそうなAIも、こうして実践的に学べば、とても親しみやすいものだとわかりますよ。 個人の好みに合わせる技を習得: 「この人にはこのカレーがぴったり!」というマッチングの裏側にある技術を学べます。これは、カレーショップのオーナーさんや、友達にぴったりのプレゼントを選びた

              Python で作る協調フィルタリング入門:カレー推薦システム - Qiita
            • Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)

              こんにちわ!Databricksはじめたいけど情報が、、、ない、、、?という方?あるよー!ここにあるよー! というわけで、Databricks関連情報をまとめていきたいと思います。 書籍 まずはこれ「データブリックス-クイックスタートガイド」Databricksとはなぜ生まれてきたのか、どういうアーキテクチャなのか、といった最初の一歩がうまく書かれている本です。 Unity Catalogなどが入る前の本なので若干古いのですが、アーキテクチャの思想や基本的な部分についてはわかりやすいのでぜひ。僕もここから入りました。 つぎはこれ、「Apache Spark 徹底入門」、Apache Sparkの書籍ですが、Databricksの情報も入っております。まずは基本となるSparkの知識を仕入れつつDatabricksの情報も仕入れていきましょう! 同人誌 有志の方々が出版されているDatabr

                Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)
              • LangChain v0.3 クイックスタートガイド - Python版|npaka

                Python版の「LangChain」のクイックスタートガイドをまとめました。 ・langchain 0.3.0 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。 「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったことが可能になりました。しかし、「LLM」を単独で使用するだけでは、真に強力なアプリケーションを作成するのに不十分です。真の力は、それを他の 計算 や 知識 と組み合わせた時にもたらされます。「LangChain」は、そのようなアプリケーションの開発をサポートします。 3. LangChain のモジュール「LangChain」は、言語モデル アプリケーションの構築に使用できる多くのモジュールを提供します。モジュールを組み合わせて

                  LangChain v0.3 クイックスタートガイド - Python版|npaka
                • 国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog

                  ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択され、その中で大規模言語モデルの開発を行っていました。 その際にモデルの開発と同時に日本語用の学習コーパスを構築しました。 www.abejainc.com そして、この構築した日本語用の大規模言語コーパス、すなわち言語モデル用の学習データセット ABEJA-CC-JA を公開しました! 商用利用も可能です。 ここでは、公開したデータセットについてご紹介します。 構築したデータセット ABEJA-CC-JAについて 元データ: Common Crawl 2019年から2023年までを対象に、計41のtimestamp データセットのサイズ : 約430Bトークン Mixtral8x7bのtokenizerでのtoken数 約407B (4070億)文字 日本語公開コーパスとして

                    国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog
                  • キャラクター付けを目的としたファインチューニング-ローカルLLMの底力 | IIJ Engineers Blog

                    地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 こんにちわ。とみーです。皆様いかがお過ごしでしょうか? 今回色々ローカルLLMの活用法を模索する中で、やっぱファインチューニングも必要だということで取り組んでいたりします。 その内容について、知った内容等をまとめてみました。 RAGはやっぱり便利だ-この技術の活用法を模索中 実は現在、社内情報を使ったRAG(Retrieval Augmented Generation)向けチャットをさらに良いものにするためにどういう対応が必要かを調べて回ったりしています。これまでの投稿を見ていただけ

                      キャラクター付けを目的としたファインチューニング-ローカルLLMの底力 | IIJ Engineers Blog
                    • 採択されるプロポーザルを書こう!! - Qiita

                      良いプロポーザルと悪いプロポーザル 私は去年、PyConJPのプロポーザルの審査員を担当しました。 プロポーザルの審査員とは登壇希望者が提出する登壇内容の予稿、プロポーザルを評価する人のことです。 審査プロセスを理解していないプロポーザルが多く残念でもったいないと感じたため、審査プロセス、審査員の考え方を紹介しつつ審査を通過するプロポーザルの書き方をレクチャーします。 なお、この文章でのプロポーザルとは、『ジェネリクス実装のプロポーザル』のような機能提案の文脈で使われる言葉ではなく、イベントの用語で『Call for Proposal』(応募トークの募集)などの文脈に由来する、イベント登壇の予稿案のことです。1 3つの背景と3要件 プロポーザルを通すには業界にある3つの背景とそこから導き出される3要件を遵守した上でプロポーザルを書くことが必要です。 3つの背景は以下です。 基本的にイベント

                      • 品質マネジメントシステム(ISO 9001)実装方法 - Python転職初心者向けエンジニアリングブログ

                        品質マネジメントシステム(ISO 9001) 品質マネジメントシステム(QMS)は、組織が顧客満足を向上させ、製品やサービスの品質を一貫して提供するための体系的なアプローチです。ISO 9001は、国際的に認められた品質管理の基準であり、さまざまな業種で適用可能です。本記事では、ISO 9001の基本概念、構成要素、実装方法、そしてその効果について詳しく解説します。また、具体的なコード例を通じて、QMSの一部であるプロセスの管理方法についても触れていきます。 ISO 9001の概要 ISO 9001は、品質管理の国際基準であり、1987年に初めて発行されました。最新版は2015年に発行され、リスクベースアプローチやプロセスアプローチを強調しています。ISO 9001は、以下の要件を通じて組織の品質管理を促進します。 顧客のニーズを理解し、満足させること。 品質方針の策定とコミュニケーション

                          品質マネジメントシステム(ISO 9001)実装方法 - Python転職初心者向けエンジニアリングブログ
                        • Pythonデータ可視化マスター講座:Seaborn、Pandas、Matplotlibを使った実践的データ分析と視覚化テクニック - Qiita

                          1. データサイエンスのための可視化ライブラリ入門 データ分析や機械学習において、データの可視化は非常に重要な役割を果たします。Pythonには、データ可視化のための強力なライブラリがいくつか存在します。今回は、その中でも特に人気の高いSeaborn、Pandas、Matplotlibの3つのライブラリを使って、データの可視化について学んでいきましょう。 これらのライブラリは、それぞれ異なる特徴を持っていますが、組み合わせて使用することで、より効果的なデータ可視化が可能になります。Pandasはデータの操作と分析、Matplotlibは基本的なプロット作成、Seabornは統計的なデータ可視化に特化しています。 まずは、必要なライブラリをインポートし、サンプルデータを作成しましょう。 import pandas as pd import matplotlib.pyplot as plt i

                            Pythonデータ可視化マスター講座:Seaborn、Pandas、Matplotlibを使った実践的データ分析と視覚化テクニック - Qiita
                          • Excel内でPythonコードを生成・実行 「Copilot in Excel with Python」が登場

                            Microsoftは、9月16日(米国時間)、Excel上で生成AIアシスタントのMicrosoft Copilotが、Pythonのコードを生成・実行してくれる「Copilot in Excel with Python」のパブリックプレビューを開始した。 Copilot in Excel with Pythonは、Excelに組み込まれたCopilotが自然言語でを介して、Pythonのコードを自動生成してくれる機能。Pythonの知識を持たなくても、Excel上でデータのグラフ化や、クリーニング、機械学習、予測分析などが可能になる。生成されるコードも解説付きで提示される。 Copilot in Excel with Pythonにデータの視覚化を依頼、Pythonコードを作成してグラフをExcelに挿入してくれる このCopilot in Excelの機能は、同タイミングで一般提供を開

                              Excel内でPythonコードを生成・実行 「Copilot in Excel with Python」が登場
                            • LLMアキネータ対戦環境を作ってみた

                              実装 コーディング ルールを明確化できたので、上記の仕様でコーディングを行いました。具体的には、下記の手順で実施しました。 人狼ゲーム用に作った汎用LLM応答関数をモジュール化(OpenAI API, Gemini API, Ollama APIに対応) 上記関数の入出力情報と、それ以外の部分の仕様をCalude 3.5 Sonnetに与えてコーディングを依頼 得られたPythonコードを手作業で試行錯誤しながら修正 LLM人狼よりもかなり単純なコードであり、Claudeに依頼してから動かすまでは30分もかからなかったと思います。その後の検証や微調整、キーワードリストの作成の方が何倍も時間かかりました。参考までに、この記事の執筆時点でのmain.pyのソースコードは下記のとおりです(単体では動かないので、プロンプト等の参考程度に見てください)。 main.pyのソースコード import

                                LLMアキネータ対戦環境を作ってみた
                              • 効率的なコードコンペティションの作業フロー | ho.lc

                                Kaggle の Code Competition で Jupyter Notebook 形式のコードを提出する機会が多くなってきました。開発効率を考えるとブラウザを使うことなくサブミッションを作成したり更新する作業フローが欲しくなります。ブラウザをなるべく使わない作業フローを紹介し、Kaggle に必要な機能が何かを考察します。 まとめ¶ 長いので3行でまとめると、 実装するコードは Dataset として Kaggle にアップロードする コンペに投稿する Notebook は Dataset にあるコードを呼び出すだけ Notebook も Dataset も Kaggle CLI 経由で VSCode から更新してアップロードする ということです。 モチベーションはコードベースの大規模化¶ Kaggle の solution は大規模化していくことがあります。例えば icecube

                                  効率的なコードコンペティションの作業フロー | ho.lc
                                • [pandas超入門]データセットの前処理をしてみよう

                                  前回はタイタニックデータセットをpandasに読み込んで、その概要を調べた後、性別と生存率、または旅客クラスと生存率に関連があるかどうかなどを見てみました。このとき、欠損値を含む列('Cabin'列)などについてはそのままにしていました。今回はこのような列をどう処理すればよいのかや、機械的な処理が簡単になるように性別や旅客クラスを数値データに変換する方法などを見ていきます。このような作業のことを「前処理」と呼びます。前処理はデータセットを機械学習やディープラーニングで適切に取り扱えるようにするための重要なステップですが、今回はその練習のようなものです。 取り掛かる前に、タイタニックデータセットの内容をDataFrameオブジェクトに読み込んでおきましょう(タイタニックデータセットは前回同様にpandasのGitHubリポジトリからダウンロードしました)。

                                    [pandas超入門]データセットの前処理をしてみよう
                                  • 「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 | IT Leaders

                                    IT Leaders トップ > テクノロジー一覧 > スキルアップ > 市場動向 > 「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 スキルアップ スキルアップ記事一覧へ [市場動向] 「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 Pythonを使ったデータ分析の実践的なテクニックを問う 2024年9月19日(木)日川 佳三(IT Leaders編集部) リスト 一般社団法人Pythonエンジニア育成推進協会は2024年9月18日、Python認定試験「Python 3 エンジニア認定データ分析試験」の上位試験「Python 3 エンジニア認定データ分析実践試験」を開始した。Pythonを使ったデータ分析の実践的なテクニックを問う試験で、全国300カ所の試験センターで通年実施する。受験料(税別)は1万2000円

                                      「Python 3 エンジニア認定データ分析実践試験」の本試験を開始、全国で通年実施 | IT Leaders
                                    1