タグ

ブックマーク / dev.classmethod.jp (101)

  • ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO

    AWS事業コンサルティング部の石川です。最近、文書ファイルの解析と変換に特化した オープンソースツール「docling」 が注目を集めています。このツールは、最先端のAIモデルを活用して、ドキュメントの構造を理解し、様々な形式に変換することができます。今回、実際にdoclingを使用して日語のドキュメントファイルからMarkdownファイルとJSONファイルへ変換を試してみます。 doclingとは doclingは、ドキュメントの変換と解析に特化したオープンソースのPythonパッケージです。最先端の人工知能モデルを活用し、レイアウト解析にDocLayNetモデル、表構造認識にTableFormerモデルを使用しています。一般的なハードウェアで効率的に動作し、少ないリソースで高性能を発揮します。JSONやMarkdown形式への変換が可能で、拡張性も高く、新機能やモデルの追加が容易

    ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO
    endor
    endor 2024/11/06
  • ついカッとなって、Pythonで時刻文字列のタイムゾーン変換をまとめてみた | DevelopersIO

    はじめに こんにちは、平野です。 PythonでUTCからJSTへの時刻の変換を行いたいと思った時、みなさんの中で必勝法は固まっているでしょうか? 私はWebで調べて、なんかいろんなパッケージが出てくるなー、と思いつつ貼り付けをしていました。 そんな状態がしばらく続いて、理解できていない自分に嫌気が差したので、 自分の中の必勝法を確立するべくいくつかのやり方を試してみました。 検証環境 macOS High Sierra バージョン10.13.6 Python 3.7.3 題材 UTCの時刻文字列をJSTの時刻文字列に変換します。 標準ライブラリだけを使う datetime datetimeは日付・時刻を扱うPythonの標準ライブラリです。 標準ライブラリでできることは標準ライブラリでやる、 というのがプログラムを書く上ではかなり重要かな、と思っております。 何はなくとも、まずはこのライ

    ついカッとなって、Pythonで時刻文字列のタイムゾーン変換をまとめてみた | DevelopersIO
    endor
    endor 2024/09/12
  • [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました | DevelopersIO

    [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました いわさです。 Amazon CloudWatch のアラームではアラームの状態変更をトリガーとしたアクションを実行することが出来ます。 これまでは Amazon SNS への通知、Auto Scaling アクション(容量の変更)の実行、EC2 アクション(停止や再起動)、SSM アクション(OpsItem/インシデントの作成)を行うことが出来ていました。 日のアップデートでこのアクションで新たに Lambda 関数を実行出来るようになりました。 従来はアラート発生時に Lambda によるカスタムアクションを実行したい場合は Amazon SNS トピックを経由して Lambda をサブスクライブさせて間接的に呼び出す必要がありましたが、直接統合出来

    [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました | DevelopersIO
    endor
    endor 2024/08/06
  • [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた | DevelopersIO

    [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた いわさです。 2024 年 7 月 10 日 にAWS Summit New York が開催されています。 今年はバンバンアップデートが紹介されていてすごいですね。 そんな中、AWS App Studio という新サービスがパブリックプレビューでリリースされました。 アナウンスはこちら。 ちょっと触ってみたのですが、ノーコード・ローコードの類のアプリケーション開発サービスです。 今回はセットアップから適当なアプリの作成までを行ってみたのでその様子をまずは紹介します。 実際に思い通りのアプリを作成したり、何が出来て何が出来ないのかを知るにはもう少しアプリを作ったり壊したりすべきですが、まずはサービスの使い方のイメージが紹介出来ればと思ってます。 AWS A

    [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた | DevelopersIO
    endor
    endor 2024/07/13
  • [アップデート] Amazon Athena for Apache Spark が発表されました #reInvent | DevelopersIO

    データアナリティクス事業部の笠原です。 2日目のキーノートにて「Amazon Athena for Apache Spark」が発表されました。 概要 AthenaのコンソールやAPIで簡素化されたノートブックを使って、インタラクティブなApache PySparkアプリケーションを構築できるようになります。 Athenaでは、Sparkアプリケーションを1秒以内で開始し、最適化されたSparkランタイムでより速く実行出来るようになります。 また、インフラストラクチャの管理とSparkの設定はAthenaが行うため、管理コストも減らせて開発に集中できるようになります。 やってみた 早速試してみました。 Athenaにノートブックの項目が増えています。 最初にワークグループを設定します。 ワークグループを新規作成します。 分析エンジンはSparkを選択します。 また今回はサンプルノートブッ

    [アップデート] Amazon Athena for Apache Spark が発表されました #reInvent | DevelopersIO
    endor
    endor 2024/06/25
  • Amazon Athena for Apache Sparkをコンソールから使ってみよう! | DevelopersIO

    データアナリティクス事業部の鈴木です。 re:Invent2022にて発表されたAmazon Athena for Apache Sparkですが、コンソールから利用する際に使う各種画面や気をつけたいポイントについてまとめてみました。 Amazon Athena for Apache Sparkとは re:Invent2022にて発表されたAmazon Athenaの機能です。Jupyter Notebookと互換性があるAthenaノートブックをインターフェースに、Apache Sparkを使ってインタラクティブにデータの分析を行うことができるというものです。 発表時にはDevelopersIOで速報記事を公開していて、その中でサンプルノートブックを例に、どんなことができそうか解説していました。今回は自分でも実際に触ってみて、自分が使っていく上で気になった細かいところまで確認したので、

    Amazon Athena for Apache Sparkをコンソールから使ってみよう! | DevelopersIO
    endor
    endor 2024/06/25
  • S3 Express One Zone をサポートするディレクトリバケットをAWSCLIで操作してみた | DevelopersIO

    AWSCLIを利用して、S3 Express One Zoneをサポートするディレクトリバケット、バケット作成、一覧確認などを試してみました。 S3 Express One Zone ストレージクラスをサポートする ディレクトリバケット、 作成、削除や、一覧確認などの操作を AWS CLIを利用して試す機会がありましたので、紹介させて頂きます。 準備 Amazon Linux 2023 の AMIで起動したEC2を実行完了として利用。 ARMアーキテクチャ用のawscliを最新バージョンに更新して利用しました。 sudo dnf remove awscli -y curl "https://awscli.amazonaws.com/awscli-exe-linux-aarch64.zip" -o "awscliv2.zip" unzip awscliv2.zip sudo ./aws/in

    S3 Express One Zone をサポートするディレクトリバケットをAWSCLIで操作してみた | DevelopersIO
    endor
    endor 2024/01/22
  • EMRのステップのキャンセルについて | DevelopersIO

    今回はEMRのステップ、つまりHiveやSparkなどのジョブのキャンセル方法について紹介します。以前紹介した以下のHadoop Streamingジョブを例にキャンセル方法について紹介します。 EMRでHadoop Streamingジョブを実行する 結論 先に結論を書いておきます。EMRの場合、ジョブはステップという単位で管理されるようになっています。このステップは実際に処理が開始される前はキャンセルすることが可能ですが、一旦処理が開始されるとキャンセルできません。処理が開始されている場合はマスターノードにSSHでログインしてyarn applicationコマンドを利用してジョブを停止する必要があります。 実行環境 emr-5.6.0 でアプリケーションは Hadoop のみ Hadoop 2.7.3 ハードウェア構成は m1.medium を 1 台(検証用なのでマスターノードのみ

    EMRのステップのキャンセルについて | DevelopersIO
    endor
    endor 2023/12/06
  • aws s3 ls があるなら aws s3 cat も実行したい、けど無理そうなので aws s3cat で我慢した | DevelopersIO

    S3 オブジェクトの中身をローカルにダウンロードせずに参照したい コンバンハ、千葉(幸)です。 aws s3 cat を実行したい、そんな風に思ったことはありませんか?つまりは S3 オブジェクトの中身を参照するためにいちいちローカルにダウンロードしたくない、ということです。 例えばこんなふうに aws s3 ls で S3 バケットの中身を参照して…… $ aws s3 ls chibayuki-hoge-hoge/chibayuki/ 2022-02-13 13:17:45 0 2022-02-13 13:19:15 17 test.txt 2022-02-13 13:19:16 17 test2.txt 2022-02-13 13:19:16 17 test3.txt そのまま aws s3 cat でオブジェクトの中身を表示させたい、ということです。 $ aws s3 cat ch

    aws s3 ls があるなら aws s3 cat も実行したい、けど無理そうなので aws s3cat で我慢した | DevelopersIO
    endor
    endor 2023/09/12
  • EMR管理ポリシーをv1からv2に更新してみた | DevelopersIO

    EMRの管理ポリシーをv1(非推奨化予定)からv2に更新する機会がありました。EMR管理ポリシーのv1とv2でどのような差異があるか、どういった対応を行ったか記事にまとめます。 こんにちは、福岡オフィスのyoshihitohです。 先日、EMRの管理ポリシーをv1(非推奨化予定)からv2に更新する機会がありました。EMR管理ポリシーのv1とv2でどのような差異があるか、どういった対応を行ったか記事にまとめます。 前提条件 対象 Amazon EMR on EC2 が対象です Amazon EMR on EKS と Amazon EMR Serverless は対象外です システム構成 筆者が運用するシステムではMWAAからEMRクラスタを構築して日次バッチを実行しています。日次バッチはS3に配置したデータを処理して、その結果をGlueのデータカタログに登録しています。このシステムで利用

    EMR管理ポリシーをv1からv2に更新してみた | DevelopersIO
    endor
    endor 2023/09/11
  • 落とし忘れたAmazon EMRクラスターを通知する | DevelopersIO

    Amazon EMRを使った開発をしていると、うっかりクラスターを落とし忘れて運用費を圧迫してしまうことがあります。 AWS Lambdaでクラスターのランニング状況を監視し、落とし忘れたクラスターを通知する方法を紹介します。 アーキテクチャ 処理の流れは以下です Amazon CloudWatch Events で定期的に AWS Lambdaを呼び出す AWS LambdaEMR クラスター一覧の起動状況をチェック クラスターの起動時間が閾値を超えていると、Amazon SNS に通知 ウォークスルー それでは、実際に通知システムを作成します。 Step 1 : 通知用Amazon SNSの作成 通知用のAmazon SNS を用意します。 SNS より先の購読先は、E-Mailや Lambda 関数など各自用意してください。 Step 2 : Lambda 向け IAM Rol

    落とし忘れたAmazon EMRクラスターを通知する | DevelopersIO
    endor
    endor 2023/09/07
  • ベクトル特化型データベースサービス「Pinecone」でセマンティック・キーワード検索をやってみた | DevelopersIO

    記事では、マネージド・ベクトル・データベースの「Pinecone」を活用して、セマンティック・キーワード検索を実施していきます。 ベクトル分析は、類似性の計算やレコメンドの作成などで使われる機械学習のメジャーな分析手法ですが、それに特化したユニークなデータベースのSaaSを見つけちゃいました。 Pineconeについて Pineconeは2019年にカリフォルニア州で創業されたスタートアップです。もともとAmazon SageMakerの開発に携わっていた方が創業したようで、シード期ながら$10Mもの資金調達に成功しており、期待値の高さが伺えます。GooglePinterestのようなビッグカンパニーが使用している、高次元ベクトルのデータを格納できる機械学習用のデータベースを一般企業にも広めたい、というモチベーションのもとPineconeを開発・提供しています。 Pinecone la

    ベクトル特化型データベースサービス「Pinecone」でセマンティック・キーワード検索をやってみた | DevelopersIO
    endor
    endor 2023/06/10
  • [Emacs] キーボードマクロを使って作業効率アップ! | DevelopersIO

    キーボードマクロ キーボードマクロ とは複数のキー入力を 1 つの命令として定義したものです。 Emacs ではこのキーボードマクロをいつでも定義・実行することが可能です。 定義方法 キーボードマクロの定義開始/終了は以下のコマンドに割り当てられています。 C-x ( : 定義開始 C-x ) : 定義終了 開始から終了までの間に入力されたキーが 1 つの命令として登録されます。 実行方法 定義したキーボードマクロは以下のコマンドで実行します。 C-x e その後繰り返す場合は e を入力 例 以下のテキストをご覧ください。 このテキストの空行を排除する という作業をキーボードマクロを利用して実施します。 定義 カーソルが 1 行目の行頭にある状態で以下を入力します。 C-x ( C-n C-d C-x ) 次の行に移動 と 1 文字削除(行削除) という処理をキーボードマクロとして定義し

    [Emacs] キーボードマクロを使って作業効率アップ! | DevelopersIO
    endor
    endor 2023/05/22
  • ChatGPTで自前のドキュメントを利用できるプラグイン、「ChatGPT Retrieval Plugin」の概要 | DevelopersIO

    2023年3月23日、OpenAI社はChatGPTでのプラグインの立ち上げを発表しました。 これにより、ChatGPTとさまざまな情報を組み合わせることができるようになり、ChatGPTが利用できるシーンはさらに多様になっていくと予想されます。 この発表と併せて、OpenAI社のGithubリポジトリで、「ChatGPT Retrieval Plugin」が公開されました。 このプラグインにより、ChatGPTで自前のドキュメントを利用する(つまり、自前のドキュメントの情報をもとにしたQ&Aなどができる)ようになるようです。 2023年3月24日現在、まだChatGPTのプラグイン自体は利用するにはWaitlistに登録して順番を待たなければいけない状態です。そのため、このプラグインをいまいま試すことはできないのですが、Github上のREADMEを読み解いて、どんなことができるかなどざ

    ChatGPTで自前のドキュメントを利用できるプラグイン、「ChatGPT Retrieval Plugin」の概要 | DevelopersIO
    endor
    endor 2023/05/18
  • ChatGPT plugins のベータ提供が開始され、約70種類のプラグインが利用可能になりました | DevelopersIO

    こんにちは、CX事業部 Delivery部の若槻です。 今回は、ChatGPT plugins のベータ提供が開始されていたので、現在利用可能なプラグインと、実際に試してみた内容についてご紹介します。 ChatGPT plugins とは ChatGPT UI 上で 3rd-party アプリケーションを利用できるようにする機能です。 プラグインを追加することにより、ChatGPT に対して次のような機能拡張を行うことができます。 リアルタイムな情報の取得(例:スポーツのスコア、株価、最新ニュースなど) プライベートなナレッジベースからの情報取得(例: 社内ドキュメント、個人的なメモなど) チャットベースのアクション代行(例: 航空券の予約、フードの注文など) 各社が ChatGPT 向けのプラグインをこぞって開発するようになれば、ChatGPT がツールの枠を超え一種のプラットフォーム

    ChatGPT plugins のベータ提供が開始され、約70種類のプラグインが利用可能になりました | DevelopersIO
    endor
    endor 2023/05/18
  • ChatGPT用のCLI Tool “kabeuchi”を作ってみた | DevelopersIO

    こんにちは、CX事業部の夏目です。 ChatGPTAPIをCLIから叩くためのツールを作成していたのですが、ようやく公開できる程度にはできたので共有します。 kabeuchi Releaseの中に各環境用のバイナリを置いています。 OpenAIChatGPTAPI (Chat Completion)をCLIから使うためのCLI Toolです。 APIを叩く際のパラメータを調整できるようにしただけではなく、APIを叩く際に一緒に送るメッセージを事前に用意したり、会話履歴を保存して過去の会話の内容に沿った回答をできるようにしています。 Quick Start 1. API Keyの登録 kabeuchi configureを使ってAPI Keyなどを設定します。 $ kabeuchi configure profile name: default OpenAI API key: sk-

    ChatGPT用のCLI Tool “kabeuchi”を作ってみた | DevelopersIO
    endor
    endor 2023/05/02
  • PythonでJSONPathを扱えるjsonpath-ngライブラリを使ってみる | DevelopersIO

    はじめに データアナリティクス事業部のkobayashiです。 PythonでJSON形式のデータを扱うことがあり含まれているデータを簡単に取り扱いと思いJSONPathを使えないかと探していたところ該当するライブラリがあったので試してみました。 環境 Python 3.9.10 JSONPathとは JSONPathは、JSONからデータを取り出す仕組みでクエリを使って要素を取り出す方法です。これにより複雑な構造のJSONデータからでも目的の要素を簡単に取得することができます。 JSONPath - XPath for JSON jsonpath-ngライブラリを使ってみる PythonでJSONPathを扱うライブラリはjsonpath-ng · PyPI になります。jsonpath-ngはJSONPathの定義 に従ってその仕様を忠実に再現しているためPythonでJSONPat

    PythonでJSONPathを扱えるjsonpath-ngライブラリを使ってみる | DevelopersIO
    endor
    endor 2023/01/20
  • 【注意喚起】 2020年9月30日以降、パス形式での S3 API リクエストは受け付けられなくなります。 | DevelopersIO

    【注意喚起】 2020年9月30日以降、パス形式での S3 API リクエストは受け付けられなくなります。 2020年9月30日以降、パス形式での S3 API リクエストは受け付けられなくなる、との発表がありましたのでシェアします。 Announcement: Amazon S3 will no longer support path-style API requests starting September 30th, 2020 2021.01.27 追記 2020年9月23日に以下の追加アナウンスがありました。 ・ユーザーが仮想ホスト形式への移行に必要な時間を確保するための措置として、パス形式の非推奨化は少なくとも 1 年間延期されました。執筆時点において新規バケットについてもパス形式のリクエストは可能ですが、あくまで延期であるため新規に作成されるものについては、仮想ホスト形式を前提

    【注意喚起】 2020年9月30日以降、パス形式での S3 API リクエストは受け付けられなくなります。 | DevelopersIO
    endor
    endor 2023/01/17
  • [レポート] Deep dive on AWS Glue Elastic Views #reinvent #emb019 | DevelopersIO

    こんにちは。サービスグループの武田です。開催中のre:Invent 2020でDeep dive on AWS Glue Elastic Viewsのセッションを視聴しましたのでレポートします。 こんにちは。サービスグループの武田です。 開催中のre:Invent 2020でDeep dive on AWS Glue Elastic Viewsのセッションを視聴しましたのでレポートします。 何度か配信がありますので視聴したい方はスケジュールを確認してみてください。 AWS re:Invent 2020 セッション概要 スピーカー Akshat Vig(AWS Speaker) Almann Goo(AWS Speaker) タイトル Deep dive on AWS Glue Elastic Views EMB019 AWS Glue Elastic ViewsはAWS Glueの新しい機

    [レポート] Deep dive on AWS Glue Elastic Views #reinvent #emb019 | DevelopersIO
    endor
    endor 2022/12/05
  • AWS Glue の Pushdown Predicates を用いてすべてのファイルを読み込むことなく、パーティションをプレフィルタリングする | DevelopersIO

    AWS Glue の Pushdown Predicates を用いてすべてのファイルを読み込むことなく、パーティションをプレフィルタリングする はじめに AWS Glueが自動生成するETLコード(PySpark)では、ソースデータをDynamicFrame内部のRDDに読み込み、後続の条件に基づいてデータのフィルタ・変換を繰り返し、最終的にターゲットデータに出力します。一般的なユースケースではすべてのデータが対象で構いませんが、この動作は特定のパーティションのデータのみが対象の場合でも全てのデータの読み込みが発生しまうことを意味します。 例えば、過去1年間のデータを日毎にパーティションしている外部テーブルあるとします。必要なデータがこのテーブルの最新の日付のデータのみであっても、すべてを読み込んだ後、後続の条件に基づいてデータをフィルタすることが必要になります。今回ご紹介するPushd

    AWS Glue の Pushdown Predicates を用いてすべてのファイルを読み込むことなく、パーティションをプレフィルタリングする | DevelopersIO
    endor
    endor 2022/12/05