並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 89件

新着順 人気順

pickle pythonの検索結果1 - 40 件 / 89件

  • 日本のウェブデザインの特異な事例

    sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

      日本のウェブデザインの特異な事例
    • 各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ

      都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト 仕事で、いろんな会社でデータサイエンスってどう使われているのですか?と聞かれることがあり、自分としてはなんとなくしか掴めていないな、知ったかぶりしたくないなと思うところがあったので、やや手厚くリサーチをしてみようと思いました。 2022/3/6の段階では11つの市場しかないですが、最終的には30市場を目指します。 【2021/11/27追記】 公開したところ、それなりにこの記事に関心を持ってくださった方が多かったようなので、少しずつ事例を埋めていこうと思います。 業界

        各業界でのデータサイエンスの活用について調べてみた(随時追加) – かものはしの分析ブログ
      • サーバーレスのセキュリティリスク - AWS Lambdaにおける脆弱性攻撃と対策 - GMO Flatt Security Blog

        はじめに こんにちは、株式会社Flatt Security セキュリティエンジニアの森岡(@scgajge12)です。 本稿では、AWS Lambda で起こりうる脆弱性攻撃やリスク、セキュリティ対策を解説し、サーバーレスにおけるセキュリティリスクについて紹介します。 はじめに AWS Lambda について サーバーレスにおけるセキュリティリスク AWS Lambda で起こりうる脆弱性攻撃 Lambda での脆弱性攻撃によるリスク 脆弱性攻撃による更なるリスク OS Command Injection XML External Entity (XXE) Insecure Deserialization Server Side Request Forgery (SSRF) Remote Code Execution (RCE) AWS Lambda におけるセキュリティ対策 セキュリティ

          サーバーレスのセキュリティリスク - AWS Lambdaにおける脆弱性攻撃と対策 - GMO Flatt Security Blog
        • 並列処理がとても苦手なPythonはプロセスを分けよう コードを書く時に意識したい2つのTipsと2つの落とし穴 | ログミーBusiness

          西川氏の自己紹介西川大亮氏(以下、西川):ここからはPython編の「ちょっとしたデータ分析の並列化」というタイトルで、西川から話します。 GOに勤める西川です。今やっているのは、タクシーやハイヤーの営業支援。「お客さんを乗っけていない時間、どこを走ったらいいの?」とか「どういうところで待っていたら注文来やすいの?」というところのナビをする、「お客様探索ナビ」というサービスのいろいろなことをしています。小さなサービスなのでいろいろやっている感じですね。 Pythonはバックエンドのデータ分析で使っているのですが、一番よく使うのはアドホックなデータ分析です。「こんなことを知りたいんだけど」とか、「調べたいんだけど」みたいな時、パパッと調べる時に使っています。 そして、それを定型のレポート化にしたいとか、定型データのテーブルを作りたいという時は、そのままデータ加工で使うようなかたちでよく使って

            並列処理がとても苦手なPythonはプロセスを分けよう コードを書く時に意識したい2つのTipsと2つの落とし穴 | ログミーBusiness
          • ローカルLLMの脆弱性があるんか?〜CVE-2024-50050から学ぶ「自分だけで使ってるから安全」の落とし穴〜 - Qiita

            2.3 RCE(Remote Code Execution)とは 攻撃者がリモートから任意のコードを実行できる脆弱性のこと。これが成立すると、あなたのマシンで攻撃者が好き放題にコマンドを叩ける。ローカルLLMの脆弱性の多くはこのRCEに分類される。 2.4 デシリアライズ(Deserialization)とは プログラムが保存・送信用に変換(シリアライズ)したデータを、元のオブジェクトに復元する処理のこと。Pythonのpickle.loads()が代表例。この復元処理に悪意あるデータを食わせると、任意のコードが実行される——これが今回の脆弱性の多くに共通する根本原因だ。 これらの用語が押さえられたら、実際にどんな脆弱性が報告されているのか見ていこう。 3. ローカルLLM脆弱性が生まれた背景 3.1 「速度優先」で生まれたエコシステム ローカルLLMのエコシステムは、2023年のLlam

              ローカルLLMの脆弱性があるんか?〜CVE-2024-50050から学ぶ「自分だけで使ってるから安全」の落とし穴〜 - Qiita
            • 10時間かかっていた遺伝的アルゴリズムをAWS Lambdaで高速化 - Insight Edge Tech Blog

              こんにちは、Insight EdgeのLead Engineerの日下です。 今回は、DEAPライブラリを利用した遺伝的アルゴリズムをAWS Lambdaで分散並列実行した話を紹介しようと思います。 目次 目次 背景と課題 並列化の方法の検討 どこを並列化するか? どのように並列化するか? 実装の方針 呼び出し側コード Lambda側コード その他 Lambdaを呼び出すためのDEAPへのmap実装 呼び出し側コード Lambda側コード 今回の実装の工夫ポイント 改善の評価 まとめ 前提 クラウド基盤: AWS 言語: Python ライブラリ: DEAP 背景と課題 ある案件で、遺伝的アルゴリズム (以下、GA)を用いた最適化処理により業務改善の実証実験をしていたところ、性能に課題があるということでデータサイエンティストチームから相談を受けました。 当該処理は、EC2 (r7g.4xl

                10時間かかっていた遺伝的アルゴリズムをAWS Lambdaで高速化 - Insight Edge Tech Blog
              • 次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ

                ※ DynalystではAWSを全面的に採用しているため、AirflowもManaged版を調査しています。 導入後の状態 Prefect導入後は、以下の構成となりました。 ポイントは以下の点です。 ワークフローをDocker Image化することで、開発・本番環境の差を軽減 staging・productionはECS Taskとしてワークフローを実行、開発ではローカルPC上でコンテナ実行 ML基盤のGitHubレポジトリへのマージで、最新ワークフローが管理画面であるPrefect Cloudへデプロイ 従来のyamlベースのdigdagから、DSに馴染み深いPythonベースのPrefectに移行したことで、コード量が減り開発負荷が軽減しました。 Prefect 入門 ~ 基礎 ~ 注意: 本記事ではPrefect 1系を扱います。Prefect 2系が2022年7月にリリースされてい

                  次世代のワークフロー管理ツールPrefectでMLワークフローを構築する CyberAgent Developers Blog | サイバーエージェント デベロッパーズブログ
                • Claude Code×Obsidianで作るナレッジベース開発環境 - YOUTRUST Tech Blog

                  この記事で得られること ✅ 30分の会議を5分で議事録化する自動化フロー ✅ 開発量を2.5倍に増やした具体的な環境構築方法 ✅ 情報検索を30秒以内に短縮するナレッジ管理術 ✅ PRレビューを10点満点で自動評価する設定 ✅ すぐに使えるCLAUDE.md設定テンプレートとスクリプト TL;DR Claude CodeとObsidianを組み合わせることで、議事録作成時間を66%削減、開発コントリビューションを2.5倍に増加させました。Tactiq→Google Drive→Obsidianの自動化フローと、AIに最適化されたナレッジベース構築により、マネジメント業務をこなしながらも効率的な開発を実現。本記事では実際の設定ファイルとワークフローを公開します。 こんにちは、YOUTRUSTでエンジニアリングマネージャーをしている須藤(YOUTRUST/X)です。AI爆速普及委員会の委員長と

                    Claude Code×Obsidianで作るナレッジベース開発環境 - YOUTRUST Tech Blog
                  • Python並行・並列処理を整理する (入門) - Qiita

                    概要 大量データに関するワークロードを、モノリシックに解決する場合、並行・並列処理の知識は活用できます 但し、一般にPythonにはGILが存在するため、正しい挙動を抑えておきたい所です 内容 Pythonにおける並行処理・並列処理 プロセス = OSが管理する実行単位 (CPUコア毎) スレッド = プロセス内の軽量な実行単位 (1CPUコア内) 上記前提を踏まえると、以下となります 並行処理 = 1つのプロセスに複数のスレッドが存在します (PythonはGILにより基本1プロセス制約です) 並列処理 = 複数のプロセスを並行して進めます (複数プロセス活用できます) MMU (Memory Management Unit)に関して プロセスから参照するメモリはMMUにより制御された仮想メモリを参照します。MMUによりプロセス間ではメモリ競合は起きません (1プロセス ≒ 1CPUコア

                      Python並行・並列処理を整理する (入門) - Qiita
                    • Python(PyTorch)で自作して理解するTransformer

                      1. はじめに Transformerは2017年に「Attention is all you need」という論文で発表され、自然言語処理界にブレイクスルーを巻き起こした深層学習モデルです。論文内では、英語→ドイツ語翻訳・英語→フランス語翻訳という二つの機械翻訳タスクによる性能評価が行われています。それまで最も高い精度を出すとされていたRNNベースの機械翻訳と比較して、 精度(Bleuスコア) 訓練にかかるコストの少なさ という両方の面で、Transformerはそれらの性能を上回りました。以降、Transformerをベースとした様々なモデルが提案されています。その例としては、BERT,XLNet,GPT-3といった近年のSoTAとされているモデルが挙げられます。 ここで、「Attention is all you need」内に掲載されているTransformerの構造の図を見てみま

                        Python(PyTorch)で自作して理解するTransformer
                      • ChatGPTを使って自分のブログ風回答を生成する仕組みを学ぶ - $shibayu36->blog;

                        最近ChatGPT周りを見ていて、自分のブログをChatGPTに繋いでブログが言いそうな回答を出してもらうという記事に興味を持った。 自分のScrapboxをChatGPTにつないだ - 西尾泰和のScrapbox 自分のはてなブログをChat GPTにつないだ - hitode909の日記 ChatWP: WordPressをAI化しておしゃべりする しかし、その仕組みが分からなかったため、自分で実際に動かしながら内容を理解してみたい。 ブログを読んだときに感じた疑問点 なぜembeddings APIを使って数値ベクトルを使うことで、そのブログが答えそうな回答を得ることができるのか。数値をプロンプトに入れても意味はなさそうだが、どのようにしているのか? まずは動かしてみる 自分もはてなブログを使っているので、https://blog.sushi.money/entry/2023/03/

                          ChatGPTを使って自分のブログ風回答を生成する仕組みを学ぶ - $shibayu36->blog;
                        • Effective Python 第3版

                          GoogleでPythonを使ったさまざまなサービスを立ち上げ、Pythonを知り尽くした著者による、Pythonエキスパート必携書の最新版です。第3版では、Python 3.13までの最新機能に対応し、第2版から新たに35項目を追加し、既存項目も時代に合わせて大幅に改訂されています。各項目では、優れたPythonコードを書くために何をすべきか、何を避けるべきか、そしてその理由をPythonの流儀に従って明確に解説。効率的でロバストであるだけでなく、読みやすく、保守しやすく、改善しやすいPythonicなコードを書く秘訣を学べます。Web開発、データ分析、自動化スクリプト、AI訓練まで、あらゆる分野でPythonの真の力を発揮したい開発者にとって、必読の一冊です。 はじめに 1章 Pythonicな考え方 項目1 使用するPythonのバージョンを把握する 項目2 PEP 8スタイルガイド

                            Effective Python 第3版
                          • the peculiar case of japanese web design - sabrinas.space

                            the peculiar case of japanese web design a project that should not have taken 8 weeks how is japanese web design different? in this 2013 Randomwire blog post, the author (David) highlighted an intriguing discrepancy in Japanese design. While the nation is known abroad for minimalist lifestyles, their websites are oddly maximalist. The pages feature a variety of bright colours (breaking the 3 colou

                            • Pythonのファイル操作まとめ:よく使うopen/with/Path/pickleなどを一冊に! 無料の電子書籍『解決!Python ファイル操作編』

                              ファイル操作って何となく難しいって思いませんか? 何かミスをするとファイルが壊れちゃうんじゃないか? って思ったことありますよね。でも、大丈夫です。Pythonにはファイルを扱う方法がいろいろと用意されているんです。もちろん、失敗すればファイルが壊れることはありますが、そうはならないような方法もちゃんと用意されていますから。 例えば、C言語ライクなopen関数でファイルをオープンし、必要な処理をしてから、closeメソッドでファイルを閉じる方法。with文を使ってオープンしたファイルを必ず閉じるようにする方法(この方法ならファイルが壊れる恐れは格段に減るでしょう)。それから、pathlibモジュールのPathクラスが提供するread_text/read_bytes/write_text/write_bytesの各種メソッドを使う方法。Pythonに標準で付属の各種モジュールを使う方法。ch

                                Pythonのファイル操作まとめ:よく使うopen/with/Path/pickleなどを一冊に! 無料の電子書籍『解決!Python ファイル操作編』
                              • 巨人の肩に乗る

                                本記事は 仮想通貨 Advent Calendar 2025 の24日目の記事です。 はじめに はじめまして、ymdと申します。普段は、株や暗号資産の分析をし、マーケットが盛り上がったときに落ちているお金を拾っています。 今年のAdvent Calendarを眺めていると、DEXの分析やLLMを活用した自動トレード戦略作成など、非常に有益な記事が目白押しです。 これらを見て思い出したのが、ニュートンの「巨人の肩に乗る」という言葉。本記事では、この精神に倣い、AIの力と先人の知見という2つの「肩」を借りながら、お金拾いの方法を探っていきます。 AIの肩に乗る AI駆動開発の3つのアプローチ AIを活用した開発には、大きく3つの方向性があります: 情報収集の自動化:論文や API ドキュメントの要約 戦略生成の自動化:複数のアプローチを並行生成 コーディングの自動化:コードそのものを AI に

                                  巨人の肩に乗る
                                • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad ブレインパッド

                                  「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                                    自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad ブレインパッド
                                  • MicrosoftのAI研究部門がMicrosoft Azure経由で38TBもの内部機密データを漏えいしていたと判明

                                    MicrosoftのAI研究部門が2020年7月にオープンソースのAI学習モデルをGitHubのリポジトリに公開した際に38TBにおよぶ機密データを漏えいしていたことを、クラウドセキュリティ企業のWizが公表しました。機密データにはパスワードや秘密鍵、3万件を超えるMicrosoft Teamsの内部メッセージが含まれていました。 38TB of data accidentally exposed by Microsoft AI researchers | Wiz Blog https://www.wiz.io/blog/38-terabytes-of-private-data-accidentally-exposed-by-microsoft-ai-researchers Microsoft mitigated exposure of internal information in a

                                      MicrosoftのAI研究部門がMicrosoft Azure経由で38TBもの内部機密データを漏えいしていたと判明
                                    • Rust製パターンマッチングマシンDaachorseを使ってPythonパイプラインを高速化する話 - エムスリーテックブログ

                                      エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 今回は文字列界隈を賑わせている高速なRust製パターンマッチングマシンDaachorseをPythonで呼び出して既存の文字列パターンマッチロジックを高速化したお話をします。 Daachorseとは なぜPythonから呼び出したいのか パターンマッチングのみのベンチマーク python-daachorseだけオートマトン構築込みのベンチマーク まとめ We are Hiring! その他 Daachorseとは DaachorseはLegalForceさんで開発運用されている文字列パターンマッチを行うRust製ライブラリです。 github.com 技術的なトピックに関してはLegalForceさんの記事が全て解説しているののでそちらを参照してくだ

                                        Rust製パターンマッチングマシンDaachorseを使ってPythonパイプラインを高速化する話 - エムスリーテックブログ
                                      • データサイエンスのためのソフトウェアエンジニアリング入門

                                        データサイエンティストがより良いコードを書くために、ソフトウェア開発の基本手法を学ぶための実践的なガイドブック。読みやすく保守しやすいPythonコードの書き方を具体的な例とともに解説します。テスト、ロギング、リファクタリング、ドキュメント、パフォーマンス、デプロイなど、実務に役立つ内容が満載です。AIがコードを自動生成する時代でも、コードの質を見極める力が重要だという視点に立脚し、自らの判断でコードを設計・評価できるスキルを身につける実用性重視の一冊。対象読者は、初中級者のデータサイエンティストおよびデータサイエンス分野への進出を考えているソフトウェア開発者。 賞賛の声 まえがき 1章 良いコードとは何か? 1.1 優れたコードが重要な理由 1.2 変化する要件への対応 1.3 単純さ 1.3.1 同じことを繰り返さない(DRY) 1.3.2 冗長なコードを避ける 1.4 モジュール化

                                          データサイエンスのためのソフトウェアエンジニアリング入門
                                        • 実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt(テックテクト) | パーソルキャリアのエンジニアブログ

                                          データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。 データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること

                                            実験の再現性を高めるデータバージョン管理(DVC)の紹介 - techtekt(テックテクト) | パーソルキャリアのエンジニアブログ
                                          • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第4/5 章 予測モデルの作成~ - LabCode

                                            AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                                            • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第5/5 章 候補化合物のin silico screening~ - LabCode

                                              AI創薬とは?AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeenin

                                              • ネットで配布される画像生成AI「Stable Diffusion」の自作モデルデータにマルウェアが混入していないかどうかチェックできる「Stable-Diffusion-Pickle-Scanner-GUI」

                                                画像生成AI「Stable Diffusion」がオープンソースで公開されたことで、AUTOMATIC1111版Stable Diffusion web UIやDreambooth GUIなどの便利なツールが多くリリースされました。これに伴って、Stable Diffusionのモデルをベースにしてさまざまなデータセットで学習したモデルがインターネット上で配布されていますが、配布されているモデルファイルをそのままダウンロードして実行するのはセキュリティ上に問題があります。「Stable-Diffusion-Pickle-Scanner-GUI」は、モデルファイルにマルウェアが含まれていないかどうかをチェックできるツールとのことで、実際に使ってみました。 GitHub - diStyApps/Stable-Diffusion-Pickle-Scanner-GUI: Pickle Scanne

                                                  ネットで配布される画像生成AI「Stable Diffusion」の自作モデルデータにマルウェアが混入していないかどうかチェックできる「Stable-Diffusion-Pickle-Scanner-GUI」
                                                • A simple search engine from scratch*

                                                  *if you include word2vec. Chris and I spent a couple hours the other day creating a search engine for my blog from “scratch”. Mostly he walked me through it because I only vaguely knew what word2vec was before this experiment. The search engine we made is built on word embeddings. This refers to some function that takes a word and maps it onto N-dimensional space (in this case, N=300) where each d

                                                  • はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場

                                                    今回は Fusion-In-Decoder を使ってクイズに答えるモデルを作ります。以前から Wikipedia 等の外部情報を参照できるテキスト生成モデルを試してみたいと思っていました。Fusion-In-Decoder の発表は 2020 年なので少し前のモデルですが、T5 ベースで手軽に試せるサイズ感ですので、日本語で試してみましょう。 1. はじめに 今回紹介する Fusion-In-Decoder(以下、FiD )1 は Meta AI (当時は Facebook AI Research) が発表した Open Domain question Answering タスクを解くテキスト生成モデルです。 じつは、以前から外部情報を参照できるテキスト生成モデルを試してみたくて2、 Google の RETRO3 の論文を読んでたんです。 なのですが、外部情報のサイズ感が 1000 B

                                                      はじめての自然言語処理 Fusion-In-Decoder でクイズに答えるモデルを作る | オブジェクトの広場
                                                    • Edge AI Just Got Faster

                                                      When Meta released LLaMA back in February, many of us were excited to see a high-quality Large Language Model (LLM) become available for public access. Many of us who signed up however, had difficulties getting LLaMA to run on our edge and personal computer devices. One month ago, Georgi Gerganov started the llama.cpp project to provide a solution to this, and since then his project has been one o

                                                        Edge AI Just Got Faster
                                                      • 危険なpickleの作り方とその防ぎ方

                                                        脆弱エンジニアの Advent Calendar 2024 9日目参加記事です。 Pickleとは? pickleとは、pythonオブジェクトをバイト列として保存(シリアライズ)しておくための形式のひとつです。 次の簡単な例を見てみましょう。 import pickle payload = {'key1': 0, 'key2': [True, (1,2)]} pkl = pickle.dumps(payload) print(pkl) # b'\x80\x03}q\x00(X\x04\x00\x00\x00key1q\x01K\x00X\x04\x00\x00\x00key2q\x02]q\x03(\x88K\x01K\x02\x86q\x04eu.' # .hex()は、バイト列を16進数の文字列として表現する print(pkl.hex()) # 80037d710028580400

                                                          危険なpickleの作り方とその防ぎ方
                                                        • An oral history of Bank Python

                                                          An oral history of Bank Python November 2021 The strange world of Python, as used by big investment banks High finance is a foreign country; they do things differently there Today will I take you through the keyhole to look at a group of software systems not well known to the public, which I call "Bank Python". Bank Python implementations are effectively proprietary forks of the entire Python ecos

                                                            An oral history of Bank Python
                                                          • 「機械学習で競馬予想」をガチで作る〜「予測してみた」で終わらせないAI開発〜 - Qiita

                                                            AIが世の中にだいぶ普及してきていることもあり、 「Pythonで競馬AIを作ったら儲かるのか?」 「ディープラーニングで競馬予想したら回収率100%超えた」 などの話題が注目を集めているのを度々目にします。 僕も 「機械学習の技術を使って実際に何か作りたい」 という動機から競馬予想AIの開発を始め、 「その様子を動画にしたら面白そう」 ということで、次のようなYouTubeチャンネルをやってきました。 登録者も増え、エラーが出た時のフォローや改善アイデアを議論し合うコミュニティを作るにまで至ったのですが、実際の運用を考えたり、処理を追加して精度を改善しようと思うと、かなり煩雑で分かりにくいコードになっていってしまうことに悩んでいました。 そこで、一回きりのアドホック1的な「予測してみた」で終わらせず、継続的に開発・運用していけるような機械学習モデルを作るには、GCPなどのクラウドツールに

                                                              「機械学習で競馬予想」をガチで作る〜「予測してみた」で終わらせないAI開発〜 - Qiita
                                                            • LLRを使った複合語分割で医療用語辞書を検索特化させたい - エムスリーテックブログ

                                                              エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。情報検索系の話が好物です。 今回はネット上に公開されている医療用語辞書を検索特化させるために統計的複合語分割を試したお話です。 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 辞書による複合語分割の指定 分割単位をどのように決めるか問題 対数尤度比を使った複合語分割 対数尤度比とは 医療用語辞書を対数尤度比で複合語分割しない単語を抽出 クエリログも含めたLLR まとめ We're hiring !!! 医療用語辞書を検索で使う際の問題 辞書の複合語分割問題 現在公開されている医療用語辞書には様々なものがあります。例えばComeJisyoは形態素解析での用途を想定した医療用語辞書です。しかし、これをそのまま検索用の辞書として利用すると、辞書に登録さ

                                                                LLRを使った複合語分割で医療用語辞書を検索特化させたい - エムスリーテックブログ
                                                              • Pythonの実行を高速化する方法を一覧でまとめてみた - Qiita

                                                                1. クラスタレベル 複数のマシンを使用するクラスタレベルで分散処理することで高速化する方法です。 もうここまでくると Python というプログラミング言語レベルではなくなりますが、高速化の選択肢として説明します。 Hadoop 大量のデータを複数マシンに分散して処理させるオープンソースのプラットフォーム。 Google社内基盤技術をオープンソースとして実装したものらしいです。 Apache Spark カリフォルニア大学バークレー校で開発された分散処理フレームワーク。 Hadoopよりもメモリをうまく使うことで、機械学習を高速で実行できるようにしたものです。 2. コンピュータレベル 1台のコンピュータの中で高速化する方法です。 高速化のアプローチとしては、並列化、GPGPUの選択があります。 2-1. 並列化 一つのマシンの中で、プログラムを並列化して実行して高速化する方法です。 詳

                                                                  Pythonの実行を高速化する方法を一覧でまとめてみた - Qiita
                                                                • 【Python】新潟県に一番似ている国は○○?各都道府県に似た形の国を調べてみた - ENGINEERING BLOG ドコモ開発者ブログ

                                                                  はじめに この記事はNTTドコモアドベントカレンダーの4日目の記事です。 こんにちは、NTTドコモサービスイノベーション部の福島です。 こちらの日本地図、おかしなところがあります。気づきますでしょうか。正解は少し下にあります。 話は変わりますが、以前テレビを見ていると「日本地図の四国をオーストラリアに変えても気づかないのでは?」という検証をやっていました。 また、パスタが名物の群馬県高崎市の特集番組では、市の形もパスタの本場のイタリアと似ているというトリビアが紹介されていました。 名前は知っていても国の形までは知らない国って結構あるな、各都道府県の形に似ている国って知らないだけで実はあるんじゃないかな、と気になったので調べてみます。 冒頭の日本地図ですが、正解は九州の各県が別の国のシルエットに置き換えられていました。 実現方法 図形の形の類似度を数値化するライブラリが無いか調べてみると、最

                                                                    【Python】新潟県に一番似ている国は○○?各都道府県に似た形の国を調べてみた - ENGINEERING BLOG ドコモ開発者ブログ
                                                                  • Pythonクイックリファレンス 第4版

                                                                    本書はPythonの機能を十分に活用するためのリファレンスです。チュートリアルとしての「Pythonを使ってみる」、型アノテーションや文字列といった「Python言語と組み込み機能」、ファイルやテキスト、時間の操作、数値処理などをまとめた「Pythonの標準ライブラリと拡張モジュール」、HTTPの処理や構造化テキストを学ぶ「ネットワークとWebプログラミング」、バージョン移行などに関する「拡張、配布、バージョンのアップグレードと移行」という5部構成となっています。Pythonを本格的に学びたい人から、さらなるスキルアップを目指したい人まで、Pythonを最大限に活用するための有益な情報がぎっちり詰まった1冊です。Python 3.11対応。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷

                                                                      Pythonクイックリファレンス 第4版
                                                                    • scikit-learnの学習結果をpickleしない - Qiita

                                                                      機械学習を簡単に行うための有用なライブラリの一つはscikit-learnである。 この文書では、scikit-learnの学習結果をpickleしないで済ます方法について述べる。 scikit-learnの特徴 各種識別器の学習・予測・評価方法のためのインターフェースがそろえてある設計。 各種アルゴリズムを試して、比較しやすい。 ドキュメントが充実している。 前提 python scikit-learn pickle scikit-learn に欠けているもの scikit-learnで学習した結果を保持するための枠組みが不足している。 そのため、sckit-learnで作った学習済みの識別器をpickleして、それをpickl.loads(pickle済みのファイル)して使ってしまうということをしてしまいやすい。 問題点 scikit-learn のサイトでも、pickleしたものを使

                                                                        scikit-learnの学習結果をpickleしない - Qiita
                                                                      • はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場

                                                                        今回は DeepSpeed-Chat による RLHF のご紹介です。正直、データセットや計算資源の都合もあり、とりあえず動かしてみました!的な話にはなりますが、RLHF の効果が実際に確認できるか見てみたいと思います。 1. はじめに 今回は DeepSpeed-Chat1 を使って RLHF を試してみたいと思います。RLHF は Reinforcement Learning from Human Feedback の略で文字通り「人からのフィードバックを用いた強化学習」ということですね。OpenAI が InstructGPT(ChatGPT の元になったモデル)2 で使ったことで注目された手法になります。 LLM がらみで何か記事にしたいと思いつつ、日々新たな LLM が発表されている昨今に、隔月&内容が実時間から月単位で遅れ気味wの本連載です。 「どうしたもんかな。。。」と悩みに

                                                                          はじめての自然言語処理 DeepSpeed-Chat による RLHF の紹介 | オブジェクトの広場
                                                                        • Tutorial: ChatGPT Over Your Data

                                                                          Note: See the accompanying GitHub repo for this blogpost here. ChatGPT has taken the world by storm. Millions are using it. But while it’s great for general purpose knowledge, it only knows information about what it has been trained on, which is pre-2021 generally available internet data. It doesn’t know about your private data, it doesn’t know about recent sources of data. Wouldn’t it be useful i

                                                                            Tutorial: ChatGPT Over Your Data
                                                                          • 【Python】multiprocessing.Queueを活用した並列処理の最適化(サンプルコード付き) - Sabrou-mal サブロウ丸

                                                                            Pythonでプロセス並列処理を効率的に行うためのツールとして、multiprocessing.Poolは非常に便利です。しかし、下記のような状況では並列化により逆に処理速度が低下することがあります。 data = xxx # 非常に大きなオブジェクト (巨大なリストなど) def func(data, i, j): """並列化したい関数: data、i、jの3つの引数を受け取り、何かの処理を実行する関数""" return data[i] + data[j] # funcの入力 args = [ (data, i, j) for i in range(10) for j in range(10) ] with multiprocessing.Pool as pool: pool.map(func, args) これはなぜかというと、multiprocessing.Poolやmultip

                                                                              【Python】multiprocessing.Queueを活用した並列処理の最適化(サンプルコード付き) - Sabrou-mal サブロウ丸
                                                                            • MACEによる機械学習を用いた分子動力学計算【MD simulation】 - LabCode

                                                                              宣伝こちらの記事は合成生物学大会iGEMの強豪校であるiGEM-Wasedaさん協力のもと執筆されました。ご協力誠にありがとうございます! 【iGEM-Waseda】は合成生物学の研究を行う早稲田大学の学術サークルです。iGEMと呼ばれる合成生物学の世界大会の世界大会に出場するために日々研究に励んでいらっしゃいます。 本記事では、iGEM2024で日本Undergrad部門で史上初のTOP10に選ばれたプロジェクトの一環として、特にIn Silicoシミュレーションに関わる部分のツールの一部を紹介しています。プロジェクトの詳細については、iGEM-Wasedaの成果報告サイトをご覧いただければ幸いです。 MACEとはMACEは、機械学習ポテンシャル(Machine Learning Potential)の一種として開発されたツールで、材料内の原子間相互作用を高精度かつ高速に予測できるのが特

                                                                                MACEによる機械学習を用いた分子動力学計算【MD simulation】 - LabCode
                                                                              • 機械学習ジョブの高速化による開発効率の向上 | Wantedly Engineer Blog

                                                                                しかしながら推薦システムでは、扱うデータが大きかったり機械学習を使っていたりするために、ジョブを一回実行してそれをもとにオフラインテストをするのにも多くの時間を必要とします。このような状態では、解決策のブラッシュアップする回数が少なくなってしまったり、ユーザーに価値を届けるのが遅くなってしまうという状況を生み出します。そのため、ジョブの高速化を行うことはユーザーに良いものを早く届けるためにとても重要なものだと考えています。 高速化をどのように進めていったかまず、私達が扱っているジョブがどのような手順で実行されていくかについて簡単に紹介します。 データ取得:DWHから推薦に必要な情報を取得する前処理:機械学習モデルに入力する特徴量を作成したり、モデルに与えられる形に変換する学習:モデルを学習する後処理:学習結果に対してルールベースで調整をするエクスポート:予測結果を本番環境からアクセスできる

                                                                                  機械学習ジョブの高速化による開発効率の向上 | Wantedly Engineer Blog
                                                                                • NumPy 2.0.0 Release Notes — NumPy v2.5.dev0 Manual

                                                                                  Getting started What is NumPy? Installation NumPy quickstart NumPy: the absolute basics for beginners Fundamentals and usage NumPy fundamentals NumPy for MATLAB users NumPy tutorials NumPy how-tos Advanced usage and interoperability Using NumPy C-API F2PY user guide and reference manual Under-the-hood documentation for developers Interoperability with NumPy Extras Glossary Release notes 2.5.0 2.4.