並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

python print data type of columnの検索結果1 - 40 件 / 62件

  • PDFを高品質なマークダウンに変換する方法|すぅ | AI駆動PM

    PDFファイルをマークダウンに変換する作業って、地味だけど本当に大切な作業ですよね。 「また手作業でコピペか...」 「レイアウトが崩れてる...」 「表がめちゃくちゃになってる...」 私もさまざまな文書管理の現場で同じような課題に直面してきました。特に、既存のPDF資料をObisidianやNotionなどのマークダウン形式で管理したい場面って、本当に多いですよね。 手作業でやると、一つの文書だけで数時間かかることもあります。表や画像の配置を調整して、リンクを張り直して、フォーマットを整えて...。骨が折れる作業です。 「もっと効率的な方法はないだろうか?」 そう思っていた矢先、いくつかの優秀な手法を発見しました。今回は、スキルレベル別に4つのアプローチをご紹介したいと思います。 【各レベルの概要】まず、それぞれのアプローチの特徴を簡単にご紹介しておきますね。 レベル1:GPT-5でシ

      PDFを高品質なマークダウンに変換する方法|すぅ | AI駆動PM
    • 法律のデータ構造と検索

      デジタル庁は、法令標準 XML スキーマに準拠した、現行の法令データをe-Gov法令検索というサイト上で公開しています[1]。今回、この法令XMLをパースするPythonライブラリ ja-law-parser をつくり、法令データの全文検索をしてみました。 この記事では、日本の法令とそのデータ構造、法令XMLパーサについて解説し、最後に、それらを使った法令データの全文検索システムを実装する方法をご紹介します。法令検索の実装についても、GitHubリポジトリで公開しています。 この記事は、情報検索・検索技術 Advent Calendar 2023の16日目の記事です。 法律と法令 法律とは 法律の制定と公布 法律と法令の違い 法律の改正 法令のデータ構造 e-Govの法令データ 法令標準XMLスキーマ 法令番号と法令ID 題名 本則と附則 条・項・号 編・章・節・款・目 法令XMLパーサ:

        法律のデータ構造と検索
      • 【2020年】CTF Web問題の攻撃手法まとめ - こんとろーるしーこんとろーるぶい

        はじめに 対象イベント 読み方、使い方 Remote Code Execution(RCE) 親ディレクトリ指定によるopen_basedirのバイパス PHP-FPMのTCPソケット接続によるopen_basedirとdisable_functionsのバイパス JavaのRuntime.execでシェルを実行 Cross-Site Scripting(XSS) nginx環境でHTTPステータスコードが操作できる場合にCSPヘッダーを無効化 GoogleのClosureLibraryサニタイザーのXSS脆弱性 WebのProxy機能を介したService Workerの登録 括弧を使わないXSS /記号を使用せずに遷移先URLを指定 SOME(Same Origin Method Execution)を利用してdocument.writeを順次実行 SQL Injection MySQ

          【2020年】CTF Web問題の攻撃手法まとめ - こんとろーるしーこんとろーるぶい
        • FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト アンビ(AMBI)

          FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ PythonのWebフレームワークとしていま注目を集めるFastAPIは、シンプルにコードが書けるだけでなく、パフォーマンスが高いWebアプリケーションのバックエンドサーバーが構築可能です。同フレームワークの勘所をPythonスペシャリストの杜世橋さんが、初心者向けのハンズオン、そしてより実践的な画像への自動タグ付けサービス実装をとおして解説します。 FastAPIはいま非常に注目されているPythonのWebフレームワークの1つです。Flaskのようにシンプルに書ける一方でPythonのType Hintの機能をうまく活用し、HTTPのリクエスト/レスポンスをPythonの関数の引数/戻り値とシームレスにマッピングして非常に効率的に開発ができるのが最大の特徴です。非同期処理にも対応していてその名

            FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト アンビ(AMBI)
          • PostgreSQL Client から自作 DBMS に接続する - goropikariの備忘録

            最近、Go の練習がてら書いていた自作 DBMS に PostgreSQL client で接続できるようになったので、そのやり方を残しておきます。(これから紹介するサンプルコードはすべて Python ですが) github.com psql --version psql (PostgreSQL) 13.2 pgcon の資料と PostgreSQL の公式 Document、加えて PostgreSQL server と client 間に流れるパケットを眺めると、自作DBMSは client から接続されたときにどういうパケットを返せばいいのかが見えてきます。 https://www.pgcon.org/2014/schedule/attachments/330_postgres-for-the-wire.pdf https://www.postgresql.org/docs/13/

              PostgreSQL Client から自作 DBMS に接続する - goropikariの備忘録
            • GPT-5 の新パラメータとツール|npaka

              以下の記事が面白かったので、簡単にまとめました。 ・GPT-5 New Params and Tools - OpenAI Cookbook 1. verbosity1-1. 概要「verbosity」は、出力トークン数を調節できます。 ・low : 簡潔なUX、簡潔な文章 ・medium (デフォルト) : バランスの取れた詳細 ・high : 詳細な情報。監査、教育、引き継ぎに最適 1-2. verbosityの効果の確認プロンプトを一定に保ったまま、「verbosity」を変更することで、効果を確認できます。 response = client.responses.create( model="gpt-5", input="人生、宇宙、そして万物に関する究極の問いに対する答えは何でしょうか?", text={ "verbosity": "low" } ) print(response

                GPT-5 の新パラメータとツール|npaka
              • GPT in 60 Lines of NumPy | Jay Mody

                January 30, 2023 In this post, we'll implement a GPT from scratch in just 60 lines of numpy. We'll then load the trained GPT-2 model weights released by OpenAI into our implementation and generate some text. Note: This post assumes familiarity with Python, NumPy, and some basic experience with neural networks. This implementation is for educational purposes, so it's missing lots of features/improv

                • Sublime Text 4

                  The first stable release of Sublime Text 4 has finally arrived! We've worked hard on providing improvements without losing focus on what makes Sublime Text great. There are some new major features that we hope will significantly improve your workflow and a countless number of minor improvements across the board. A huge thanks goes out to all the beta testers on discord and all the contributors to

                    Sublime Text 4
                  • 缶つぶし機とソフトウェア移行技術 - Refactoring to Rust の読書感想文 - じゃあ、おうちで学べる

                    はじめに ——あるいは、「知っている」と「理解している」の間 Rustのことは、知っていた。学習もしていた。実務でも使っていた。 でも、それは知っているつもりだった。 知ってるつもり 無知の科学 (ハヤカワ文庫NF) 作者:スティーブン スローマン,フィリップ ファーンバック早川書房Amazon 日々Rustで開発し、BoxとRcとArcを使い分け、tokio::spawnでタスクを生成し、?演算子を当たり前のように書いている。FFI?PyO3使えばいいでしょ。WebAssembly?wasm-bindgenがあるじゃない。技術的には、確かに「使える」レベルにはあった。 でも、心のどこかで感じていた違和感があった。 オートバイのエンジンを分解できる人と、エンジンが動く原理を理解している人は違う。コードが動くことと、なぜそう書くべきかを理解することも違う。私は前者だった。メカニックではあった

                      缶つぶし機とソフトウェア移行技術 - Refactoring to Rust の読書感想文 - じゃあ、おうちで学べる
                    • 4 Pandas Anti-Patterns to Avoid and How to Fix Them

                      pandas is a powerful data analysis library with a rich API that offers multiple ways to perform any given data manipulation task. Some of these approaches are better than others, and pandas users often learn suboptimal coding practices that become their default workflows. This post highlights four common pandas anti-patterns and outlines a complementary set of techniques that you should use instea

                        4 Pandas Anti-Patterns to Avoid and How to Fix Them
                      • June 2022 (version 1.69)

                        Update 1.69.1: The update addresses these issues. Update 1.69.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the June 2022 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highlights include: 3-way merge editor - Resolve merge conflicts wit

                          June 2022 (version 1.69)
                        • krish's blog • Parsing JSON in 500 lines of Rust

                          Last semester at university, I took a course called "Syntax-Based Tools and Compilers". It focused on building a scanner, parser, compiler, and so on for a language called PL0. We used Python in the course, but I was really interested in learning Rust at the time. So, I decided to embark on a side project (yes, another one!). This time, I wanted to build a JSON parser in Rust. My goal was to test

                            krish's blog • Parsing JSON in 500 lines of Rust
                          • What a good debugger can do 🔮

                            When people say “debuggers are useless and using logging and unit-tests is much better,” I suspect many of them think that debuggers can only put breakpoints on certain lines, step-step-step through the code, and check variable values. While any reasonable debugger can indeed do all of that, it’s only the tip of the iceberg. Think about it; we could already step through the code 40 years ago, sure

                              What a good debugger can do 🔮
                            • Examples of floating point problems

                              January 13, 2023 Hello! I’ve been thinking about writing a zine about how things are represented on computers in bytes, so I was thinking about floating point. I’ve heard a million times about the dangers of floating point arithmetic, like: addition isn’t associative (x + (y + z) is different from (x + y) + z) if you add very big values to very small values, you can get inaccurate results (the sma

                              • OpenAI API の Structured Outputs の使い方|npaka

                                以下の記事が面白かったので、簡単にまとめました。 ・Introducing Structured Outputs in the API 1. Structured Outputs昨年のDevDayで、「JSONモード」を導入しました。これは、OpenAIのモデルを使用して信頼性の高いアプリを構築しようとしている開発者にとって便利な構成要素です。「JSONモード」は、有効なJSON出力を生成するためのモデルの信頼性を向上させますが、モデルの応答が特定のスキーマに準拠することを保証するものではありません。本日、APIに「Structured Outputs」を導入します。これは、モデルによって生成された出力が、開発者が提供するJSONスキーマと完全に一致するように設計された新機能です。 複雑なJSONスキーマのフォローの評価では、「Structured Outputs」を備えた新しいモデル「g

                                  OpenAI API の Structured Outputs の使い方|npaka
                                • January 2025 (version 1.97)

                                  Update 1.97.1: The update addresses these security issues. Update 1.97.2: The update addresses these issues. Downloads: Windows: x64 Arm64 | Mac: Universal Intel silicon | Linux: deb rpm tarball Arm snap Welcome to the January 2025 release of Visual Studio Code. There are many updates in this version that we hope you'll like, some of the key highlights include: Next Edit Suggestions (preview) - Co

                                    January 2025 (version 1.97)
                                  • LangChain社LLMOpsツール「LangSmith」を触ってみた(詳細解説つき) - ABEJA Tech Blog

                                    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。LangChain 使えば、RAG [Retrieval Augment Generation] などを活用した LLM アプリケーションも簡単に作成できるので大変便利ですよね。そんな LangChain を開発している LangChain 社から LLMOps ツール(*1)である LangSmith が登場しているので調査してみました。昨今 ChatGPT 等の LLM 技術の発展に伴い、LLM を実際のアプリケーション開発や運用に適用する際に MLOps から派生した LLMOps という概念が有益になってきています。LangSmith はそのような LLMOps において、LLM アプリケーションの運用向け LLMOps 機能に焦点を絞っており、ま

                                      LangChain社LLMOpsツール「LangSmith」を触ってみた(詳細解説つき) - ABEJA Tech Blog
                                    • Fine-tuning GPT-3.5-Turbo for Natural Language to SQL

                                      Photo by Mariia Shalabaieva on UnsplashBackgroundAllowing non-technical users to ask questions from a database has been a problem of interest in academia and industry for years. The recent advances in Large Language Model (LLM) technology, such as GPT-4, have improved the accuracy of proposed solutions. However, since the most advanced LLMs have not been open for fine-tuning, recent work in the sp

                                        Fine-tuning GPT-3.5-Turbo for Natural Language to SQL
                                      • Llama 3.1 の新機能と使い方|npaka

                                        以下の記事が面白かったので、簡単にまとめました。 ・Llama 3.1 - 405B, 70B & 8B with multilinguality and long context 1. Llama 3.1 の新機能「Llama 3.1」の新機能は、次のとおりです。 ・128Kトークンの大きなコンテキスト長 (元は8K) ・多言語 ・ツールの使用 ・4,050億パラメータの非常に大きな高密度モデル ・より寛容なライセンス 8B、70B、405Bの3つのサイズがあり、それぞれにベースモデルと指示モデルがあります。128Kトークンのコンテキスト長と、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語を含む8つの言語をサポートしています。「Llama 3.1」は、より長いコンテキストに役立つ効率的な表現である「Grouped-Query Attention」(

                                          Llama 3.1 の新機能と使い方|npaka
                                        • Skills in OpenAI API

                                          Upload, manage, and attach reusable skills to hosted environments. Agent Skills let you upload and reuse versioned bundles of files in hosted and local shell environments. For the full reference, see the Skills documentation. What is a skill? A skill is a reusable bundle of files (instructions + scripts + assets), packaged as a folder and anchored by a required SKILL.md manifest. OpenAI copies tha

                                            Skills in OpenAI API
                                          • はじめての自然言語処理 Hugging Face Transformers で T5 を使ってみる | オブジェクトの広場

                                            前回が分量的にやたらと重かったので、今回はその反省(反動?)を踏まえて軽い感じでいってみます。第7回で紹介した T5 ですが Hugging Face の Transformers でもサポートされてますので、その使用方法をご紹介したいと思います。 1. はじめに 今回は久しぶりに T5 の話です。T5 に関しては第7回、第8回で一度紹介しているので、未読の方は記事に目を通してから戻ってきて頂けると、より理解がしやすいと思います。 さて、 T5 ですが Google のオリジナルコード(以下 “t5"と記述)1は敷居が高いと感じる方もいらっしゃるのではないでしょうか。 Estimator API ベースのコードや gin による設定など慣れていないと、とっつきにくいのではないかと思います。 そこで今回は Hugging Face の Transformers 2を使って T5 を動かす方法

                                              はじめての自然言語処理 Hugging Face Transformers で T5 を使ってみる | オブジェクトの広場
                                            • A 100x speedup with unsafe Python

                                              We're going to speed up some numpy code by 100x using "unsafe Python." Which is not quite the same as unsafe Rust, but it's a bit similar, and I'm not sure what else to call it... you'll see. It's not something you'd use in most Python code, but it's handy on occasion, and I think it shows "the nature of Python” from an interesting angle. So let's say you use pygame to write a simple game in Pytho

                                              • Blog

                                                Hachi: An (Image) Search engine Only the dead have seen the end of war .. George Santayana For quite some time now, i have been working on and off on a fully self-hosted search engine, in hope to make it easier to search across Personal data in an end to end manner. Even as individuals, we are hoarding and generating more and more data with no end in sight. Such "personal" data is being stored fro

                                                • OpenAI o1を再現しよう(Reasoningモデルの作り方)|はち

                                                  はじめに2024年9月にo1で新しい言語モデルのあり方をOpenAIが示し、注目を集めました。2024年9月にo1-preview、o1-miniが発表され、2024年12月にはo1(-full)とo1-proが公開されました。 さらには2024年12月21日にo3の結果が公開になりこの分野でのさらなる進展が確認できました。(🔗) いまだにo1, o3のような推論モデル(Reasoning Model)の開発方法は絶対にこれだろう!というものはわかってきてはいませんが、再現を目指す取り組みがちらほら出てきており、モデルの公開もされていたりしています。 上のようにオープンな取り組みをいくつか解説した記事を前回書きましたが、その中でも特に詳細に開発方法が書かれていたMarco-o1のやり方を試してみて実際に数学の推論能力が上がるのを確認するというのが本記事の取り組みです。 コードや、論文に未

                                                    OpenAI o1を再現しよう(Reasoningモデルの作り方)|はち
                                                  • A 2025 Survey of Rust GUI Libraries

                                                    I did this in 2020 and then again in 2021, but I’m in the mood to look around again. Let’s look through Are We GUI Yet? and see what’s up these days. The task today is to have a text label and an input field that can change the text in the label. In React, for example, this is basically free: const Demo = () => { let [state, setState] = useState("Hello, world!"); return ( <div> <p>{state}</p> <inp

                                                    • GeminiとImagenで類似画像生成アプリを開発してみた - G-gen Tech Blog

                                                      G-gen の福井です。当記事では、Google が提供するマルチモーダル生成 AI モデル Geminiと、画像生成 AI モデル Imagen を使用して、アップロード画像から類似画像を生成する Web アプリを開発する手順をご紹介します。 はじめに 当記事の概要 実行イメージ 利用サービス・ライブラリ ソースコード Python のバージョン requirements.txt main.py ローカルでの動作確認 ローカル実行 ローカルで起動したアプリへ接続 Google Cloud へのデプロイ Cloud Run の使用 ディレクトリ構成 Dockerfile の作成 Cloud Run にデプロイ 動作確認 Cloud Run のアクセス元制御について はじめに 当記事の概要 当記事では、Google が提供するマルチモーダル生成 AI モデル Geminiと、画像生成 AI

                                                        GeminiとImagenで類似画像生成アプリを開発してみた - G-gen Tech Blog
                                                      • はじめての自然言語処理 ELYZA 日本語 Llama 2 指示応答モデルのファインチューニングと vLLM での推論 | オブジェクトの広場

                                                        今回は Elyza さんの日本語 Llama 2 指示応答モデルをファインチューニングし、vLLM にデプロイして高速に推論してみます。70 億パラメータモデルならギリギリ Tesla T4 x 1 の構成でも float16 で動かせるかと思ったのですが、どうだったでしょうか。vLLM には OpenAI 互換の API インタフェースも備えているので、ついでに LangChain からも接続してみたり。 1. はじめに 今回は Elyza さんが公開されている大規模指示応答言語モデルである、ELYZA-japanese-Llama-2-7b-fast-instruct1 をファインチューニングして vLLM で推論してみます。 そんな訳で今回あまり書くことがなく、動かし方だけサラっと書いて「動きましたー。では良いお年を~。」で締めることにします。 しかし、時代感覚無視の隔月連載でネタを

                                                          はじめての自然言語処理 ELYZA 日本語 Llama 2 指示応答モデルのファインチューニングと vLLM での推論 | オブジェクトの広場
                                                        • Announcing Masonry 0.1, and my vision for Rust UI

                                                          When I see the landscape of native GUI in 2022, I feel like something is missing. I don’t just mean Rust UI. My frustrations with UI frameworks started long before I’d even heard of Rust. The origin story: Qt and fear The Qt framework is a C++ toolkit for writing GUI apps. In 2019, I spent a year working on a Qt project for an energy company, a diagram editor meant to be used by electrical enginee

                                                          • What's New in Emacs 28.1?

                                                            Try Mastering Emacs for free! Are you struggling with the basics? Have you mastered movement and editing yet? When you have read Mastering Emacs you will understand Emacs. It’s that time again: there’s a new major version of Emacs and, with it, a treasure trove of new features and changes. Notable features include the formal inclusion of native compilation, a technique that will greatly speed up y

                                                            • Demystify RAM Usage in Multi-Process Data Loaders

                                                              A typical PyTorch training program on 8 GPUs with 4 dataloaderworkers per GPU would create at least processes.A naive use of PyTorch dataset and dataloader can easilyreplicate your dataset's RAM usage by 40 times. This issue has probably affected everyone who has done anything nontrivial with PyTorch.In this post, we will explain why it happens, and how to avoid the 40x RAM usage. All code example

                                                                Demystify RAM Usage in Multi-Process Data Loaders
                                                              • Opengrep の中身を読む(前編):scan コマンドと AST マッチングの仕組み - ラック・セキュリティごった煮ブログ

                                                                はじめに Opengrep とは 現行機能と使い方 ルール scan機能の実装を追う:全体フローと責務 ソースコードをASTに変換 ルールをASTに変換 ソースコードの汎用ASTを走査しながらルールのASTとマッチング まとめ 引用 こんにちは、魚脳です。今回は静的解析ツール(SAST: Static Application Security Testing)の一種Opengrepを紹介したいと思います。 はじめに 静的解析ツール(SAST: Static Application Security Testing)は、ソースコードを実行せずに解析し、バグや脆弱性の兆候を検出する仕組みです。 CI に組み込んで早い段階で問題を見つけたり、コードレビューの補助として使われたりと、さまざまな場面で活用されています。 SAST の代表的なツールとしては、Semgrep や CodeQL などが知ら

                                                                  Opengrep の中身を読む(前編):scan コマンドと AST マッチングの仕組み - ラック・セキュリティごった煮ブログ
                                                                • 防衛省サイバーコンテスト2023 Writeups - はまやんはまやんはまやん

                                                                  [crypto] Simple Substitution Cipher [crypto] Substitution Cipher [crypto] Administrator Hash(NTLM hash) [crypto] Administrator Password [crypto] Hash Extension Attack [forensics] The Place of The First Secret Meeting [forensics] The Deleted Confidential File [forensics] They Cannot Be Too Careful. [forensics] The Taken Out Secrets [forensics] Their Perpetration [NW] Transfer [NW] Analysis [NW] Enu

                                                                    防衛省サイバーコンテスト2023 Writeups - はまやんはまやんはまやん
                                                                  • Gemini Advancedでデータ分析をやってみた - GMOインターネットグループ グループ研究開発本部

                                                                    TL;DR Geminiの有料プランGemini Advancedでは、5/14から100万トークンもの入力に対応したGemini 1.5 Proを提供開始、更に5/21からスプレッドシートをアップロードしてのデータ分析や可視化が可能になりました。これはPythonのコードを生成して実行するする機能です。 データ分析の性能としてはGemini AdvancedはChatGPT-4oとほぼ同等の性能でどんぐりの背比べ甲乙が付け難いです。Geminiの場合、Google Sheetsなどと連携でき、データの取り込みやエクスポートが容易です。一方のChatGPTは、可視化したグラフがより見やすい印象です。 しかし、Gemini AdvancedもChatGPT-4oも指示が曖昧では適切な集計ができないなど、データサイエンティストの視点から見ると、生成AIに任せきりでは不安な点が多く見受けられます

                                                                      Gemini Advancedでデータ分析をやってみた - GMOインターネットグループ グループ研究開発本部
                                                                    • Large Text Compression Benchmark

                                                                       Large Text Compression Benchmark Matt Mahoney Last update: Mar. 25, 2026. history This competition ranks lossless data compression programs by the compressed size (including the size of the decompression program) of the first 109 bytes of the XML text dump of the English version of Wikipedia on Mar. 3, 2006. About the test data. The goal of this benchmark is not to find the best overall compress

                                                                      • LLMs and SQL

                                                                        Francisco Ingham and Jon Luo are two of the community members leading the change on the SQL integrations. We’re really excited to write this blog post with them going over all the tips and tricks they’ve learned doing so. We’re even more excited to announce that we’ll be doing an hour long webinar with them to discuss these learnings and field other related questions. This webinar will be on March

                                                                          LLMs and SQL
                                                                        • Gemini CLI extensionsでNano Bananaを使ってみた〜バイブコーディングな画像生成・編集〜 - GMOインターネットグループ グループ研究開発本部

                                                                          2025.10.14 Gemini CLI extensionsでNano Bananaを使ってみた〜バイブコーディングな画像生成・編集〜 TL;DR Gemini CLI とは、Googleが発表したターミナルからGeminiを使って様々な作業を行うAIエージェントツールです。このGemini CLIに機能拡張ができるGemini CLI Extensionsが発表されました。AtlassianやFigmaなどのパートナー企業がGemini CLI Extensionsを公開しています。 Nano Banana Extensionは、Googleの公開したGemini CLI Extensionsの一つで、ターミナル上でGeminiと対話しながら画像生成・編集が可能です。また、特定の画像生成・編集のためのコマンドが実装されておりアイコンやフローチャートの生成、画像の復元やストーリー生成な

                                                                            Gemini CLI extensionsでNano Bananaを使ってみた〜バイブコーディングな画像生成・編集〜 - GMOインターネットグループ グループ研究開発本部
                                                                          • StreamlitでEDINETから有価証券報告書をダウンロードして分析するWEBアプリをサクっとつくろう

                                                                            参考文献 ※1 EDINET API機能追加に係る利用者向け説明会資料 ※2 EDINET API仕様書 Version2 ①会社名の選択 まず会社一覧及び、会社のEDINETコードが必要になってきます。 これについてはAPIで取得する方法はなく公式サイトからZIPを落としてくるか ここからプログラム的に自動でダウンロードする必要があります。 今回は手動であらかじめダウンロードしたものを使います。 公式サイトからダウンロードすると毎回リンクが変わる、上記の直接リンクだと固定という謎仕様のようです(ドキュメントにもそうかいてある) ZIPを展開するとShift-JISのCSVが手に入ります。文字コードに注意しましょう。EDINETからダウンロードするCSVはUTF16なのにこっちはShiftJISなのです。 中身は上記のようなもになっています。 末尾に0がついているものの証券コードも入ってい

                                                                              StreamlitでEDINETから有価証券報告書をダウンロードして分析するWEBアプリをサクっとつくろう
                                                                            • AWS Database Migration Service による Change Data Capture: 前編 - public note

                                                                              AWS Database Migration Service (以下、DMS) で Change Data Capture(CDC) を試してみました。 目的 構成 DMS のしくみ DMS の概要図 MigrationType 環境構築のポイント RDS パラメータグループ RDS への接続情報は SecretsManager に入れると便利 Replication Instance 用の Subnet Group を作成するときに特定の Role が必要 S3 への出力設定 捕捉対象とするスキーマとテーブルの指定 検証 EC2 から mysqlslap を実行 S3 出力結果 目的 目的は、Private Subnet にある RDS の変更レコードを、Google BigQuery へ転送することです。 CDC を行う OSS には Debezium がありますが、運用でなるべく楽を

                                                                                AWS Database Migration Service による Change Data Capture: 前編 - public note
                                                                              • Node.js — Node.js 22.9.0 (Current)

                                                                                2024-09-17, Version 22.9.0 (Current), @RafaelGSS New API to retrieve execution Stack Trace A new API getCallSite has been introduced to the util module. This API allows users to retrieve the stacktrace of the current execution. Example: const util = require('node:util'); function exampleFunction() { const callSites = util.getCallSite(); console.log('Call Sites:'); callSites.forEach((callSite, inde

                                                                                  Node.js — Node.js 22.9.0 (Current)
                                                                                • NER(固有表現抽出)始めませんか? 第2回 | 株式会社NTTデータ先端技術

                                                                                  CRFによる情報抽出サンプル 以下はこれら条件を元に、実際に抽出から精度評価までを行うコードです。 ※Pythonコードで記載しています import os from time import time import json from sklearn.metrics import make_scorer import sklearn_crfsuite from sklearn_crfsuite import metrics import joblib import numpy as np import fasttext def save_jsonl_file(file_name, jsonl): with open(file_name,"w", encoding="utf8") as f: for json_data in jsonl: json_text = json.dumps(jso

                                                                                    NER(固有表現抽出)始めませんか? 第2回 | 株式会社NTTデータ先端技術