タグ

ブックマーク / dev.classmethod.jp (106)

  • GlueJob上でSpark.SQLを通してMSCK REPAIR TABLEと同様の結果を得るまでに試行錯誤したこと | DevelopersIO

    Partitioned TableをリカバリーするためにAthena上で実行していたMSCK REPAIR TABLEをGlue Jobで実行できるようになるまでの試行錯誤を書きました。 はじめに Athenaで更新されていないPartitioned Tableを扱う場合には事前にMSCK REPAIR TABLE ${TABLE}のSQL文を実行する必要があります。これを手作業で行っていましたが、該当のテーブル作成を実行しているGlue Jobにてまとめて行うことで自動化を検討しました。 結果として意図した動作に到達できましたが、追加した処理が想定どおりの動作にならなかったり、正常に完了せずエラーになり続けたりと悩まされました。振り返りとしてハマったことも含めて書き出してみました。 尚、コードはScalaを前提としていますが、Pythonを使う場合も大体似たような書き方になると思われます

    GlueJob上でSpark.SQLを通してMSCK REPAIR TABLEと同様の結果を得るまでに試行錯誤したこと | DevelopersIO
    endor
    endor 2025/02/13
  • EventBridge Scheduler で MSCK REPAIR TABLE (パーティション更新)を定期実行する | DevelopersIO

    MSCK REPAIR TABLE は Amazon Athena にて実行できるSQL文です。 Hive互換パーティションで定義されたテーブルにて、 パーティションを追加します。パーティションを活用することで、 Athenaクエリのスキャン量を減らせます。 実行時間およびコストにて効果があります。 MSCK REPAIR TABLE はパーティションが追加されるごとに実行する必要があります。 例えば空のバケットから accountid=111111111111/something.log が追加されたタイミングで、 このログをスキャンするために MSCK REPAIR TABLE 実行が必要です。 さらにその後、 accountid=222222222222/something.log や accountid=333333333333/something.log が追加されたタイミングで

    EventBridge Scheduler で MSCK REPAIR TABLE (パーティション更新)を定期実行する | DevelopersIO
    endor
    endor 2025/02/05
  • datastudio-aws-athena-connectorを使ってGoogleデータスタジオのデータソースにAthenaを指定してみた | DevelopersIO

    データ可視化手段のメンテナンス負荷軽減を目的にGoogle データスタジオを触ってみました。 事前に色々と聞いていたところでは、 データスタジオに用いるためBigQuery用のデータ書き出しがいる ストレージ料金がS3とBigQueryで二重になる これまでのAthena上での操作と又別の操作が必要になる など。そして実際に操作してみて「管理コストやデータ二重管理での利用費増加等、ネガティブ要因が多すぎる」という結論に。 ただ、データスタジオ自体は魅力的です。「BigQueryを中継しなければなんとかなる」と考えて検索してみると、非公式ながらも道筋を整えている先人はいるものです。 datastudio-aws-athena-connectorを使って、データスタジオとAthenaを直接接続してみました。 datastudio-aws-athena-connectorの設定 Google A

    datastudio-aws-athena-connectorを使ってGoogleデータスタジオのデータソースにAthenaを指定してみた | DevelopersIO
    endor
    endor 2025/02/05
  • [新機能] メタデータを管理する最も簡単で最速な方法、Amazon S3 メタデータ (プレビュー) を試す! #AWSreInvent | DevelopersIO

    [新機能] メタデータを管理する最も簡単で最速な方法、Amazon S3 メタデータ (プレビュー) を試す! #AWSreInvent AWS事業コンサルティング部の石川です。Amazon S3バケットのクエリ可能なオブジェクトメタデータ(プレビュー版)が発表されました。S3バケット内のオブジェクトメタデータを自動的に生成し、効率的にクエリできるようになります。 Amazon S3 メタデータとは Amazon S3は、数十億から数兆のオブジェクトを含む個別のバケットを作成できる大規模なストレージサービスです。この規模で特定の条件を満たすオブジェクトを見つけることが課題となっていました。 そこで、登場したのがAmazon S3 メタデータです。S3オブジェクトの追加や変更時に自動的にメタデータを生成し、Apache Icebergテーブルに保存します。Apache Icebergテー

    [新機能] メタデータを管理する最も簡単で最速な方法、Amazon S3 メタデータ (プレビュー) を試す! #AWSreInvent | DevelopersIO
    endor
    endor 2025/01/23
  • [祝] Amazon S3 Tablesが東京リージョンで利用可能になりました! #AWSreInvent | DevelopersIO

    クラウド事業コンサルティング部の石川です。AWS re:Invent 2024で発表された Amazon S3 Tablesが東京リージョンで利用可能になりました!記念して、現時点でどこまでできるのかを振り返ります。 なお、東京リージョンの他に、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)も同時に利用可能になりました。 Amazon S3 Tables とは Amazon S3 Tablesは、Apache Iceberg形式に最適化されたクラウドオブジェクトストアです。大規模な表形式データの保存を簡素化し、分析ワークロードに特化した設計によって、従来のS3と比較して大幅なパフォーマンス向上を実現します。継続的なテーブル最適化により、クエリ速度が最大3倍、トランザクション処理が最大10倍高速化されます。さらに、データ最適化やコンパクショ

    [祝] Amazon S3 Tablesが東京リージョンで利用可能になりました! #AWSreInvent | DevelopersIO
    endor
    endor 2025/01/20
  • ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO

    AWS事業コンサルティング部の石川です。最近、文書ファイルの解析と変換に特化した オープンソースツール「docling」 が注目を集めています。このツールは、最先端のAIモデルを活用して、ドキュメントの構造を理解し、様々な形式に変換することができます。今回、実際にdoclingを使用して日語のドキュメントファイルからMarkdownファイルとJSONファイルへ変換を試してみます。 doclingとは doclingは、ドキュメントの変換と解析に特化したオープンソースのPythonパッケージです。最先端の人工知能モデルを活用し、レイアウト解析にDocLayNetモデル、表構造認識にTableFormerモデルを使用しています。一般的なハードウェアで効率的に動作し、少ないリソースで高性能を発揮します。JSONやMarkdown形式への変換が可能で、拡張性も高く、新機能やモデルの追加が容易

    ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO
    endor
    endor 2024/11/06
  • ついカッとなって、Pythonで時刻文字列のタイムゾーン変換をまとめてみた | DevelopersIO

    はじめに こんにちは、平野です。 PythonでUTCからJSTへの時刻の変換を行いたいと思った時、みなさんの中で必勝法は固まっているでしょうか? 私はWebで調べて、なんかいろんなパッケージが出てくるなー、と思いつつ貼り付けをしていました。 そんな状態がしばらく続いて、理解できていない自分に嫌気が差したので、 自分の中の必勝法を確立するべくいくつかのやり方を試してみました。 検証環境 macOS High Sierra バージョン10.13.6 Python 3.7.3 題材 UTCの時刻文字列をJSTの時刻文字列に変換します。 標準ライブラリだけを使う datetime datetimeは日付・時刻を扱うPythonの標準ライブラリです。 標準ライブラリでできることは標準ライブラリでやる、 というのがプログラムを書く上ではかなり重要かな、と思っております。 何はなくとも、まずはこのライ

    ついカッとなって、Pythonで時刻文字列のタイムゾーン変換をまとめてみた | DevelopersIO
    endor
    endor 2024/09/12
  • [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました | DevelopersIO

    [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました いわさです。 Amazon CloudWatch のアラームではアラームの状態変更をトリガーとしたアクションを実行することが出来ます。 これまでは Amazon SNS への通知、Auto Scaling アクション(容量の変更)の実行、EC2 アクション(停止や再起動)、SSM アクション(OpsItem/インシデントの作成)を行うことが出来ていました。 日のアップデートでこのアクションで新たに Lambda 関数を実行出来るようになりました。 従来はアラート発生時に Lambda によるカスタムアクションを実行したい場合は Amazon SNS トピックを経由して Lambda をサブスクライブさせて間接的に呼び出す必要がありましたが、直接統合出来

    [アップデート] Amazon CloudWatch のアラームで、実行アクションに Lambda 関数を直接指定出来るようになりました | DevelopersIO
    endor
    endor 2024/08/06
  • [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた | DevelopersIO

    [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた いわさです。 2024 年 7 月 10 日 にAWS Summit New York が開催されています。 今年はバンバンアップデートが紹介されていてすごいですね。 そんな中、AWS App Studio という新サービスがパブリックプレビューでリリースされました。 アナウンスはこちら。 ちょっと触ってみたのですが、ノーコード・ローコードの類のアプリケーション開発サービスです。 今回はセットアップから適当なアプリの作成までを行ってみたのでその様子をまずは紹介します。 実際に思い通りのアプリを作成したり、何が出来て何が出来ないのかを知るにはもう少しアプリを作ったり壊したりすべきですが、まずはサービスの使い方のイメージが紹介出来ればと思ってます。 AWS A

    [プレビュー] AWS App Studio がプレビューリリースされたのでセットアップしてアプリ作成とテスト環境への公開までしてみた | DevelopersIO
    endor
    endor 2024/07/13
  • [アップデート] Amazon Athena for Apache Spark が発表されました #reInvent | DevelopersIO

    データアナリティクス事業部の笠原です。 2日目のキーノートにて「Amazon Athena for Apache Spark」が発表されました。 概要 AthenaのコンソールやAPIで簡素化されたノートブックを使って、インタラクティブなApache PySparkアプリケーションを構築できるようになります。 Athenaでは、Sparkアプリケーションを1秒以内で開始し、最適化されたSparkランタイムでより速く実行出来るようになります。 また、インフラストラクチャの管理とSparkの設定はAthenaが行うため、管理コストも減らせて開発に集中できるようになります。 やってみた 早速試してみました。 Athenaにノートブックの項目が増えています。 最初にワークグループを設定します。 ワークグループを新規作成します。 分析エンジンはSparkを選択します。 また今回はサンプルノートブッ

    [アップデート] Amazon Athena for Apache Spark が発表されました #reInvent | DevelopersIO
    endor
    endor 2024/06/25
  • Amazon Athena for Apache Sparkをコンソールから使ってみよう! | DevelopersIO

    データアナリティクス事業部の鈴木です。 re:Invent2022にて発表されたAmazon Athena for Apache Sparkですが、コンソールから利用する際に使う各種画面や気をつけたいポイントについてまとめてみました。 Amazon Athena for Apache Sparkとは re:Invent2022にて発表されたAmazon Athenaの機能です。Jupyter Notebookと互換性があるAthenaノートブックをインターフェースに、Apache Sparkを使ってインタラクティブにデータの分析を行うことができるというものです。 発表時にはDevelopersIOで速報記事を公開していて、その中でサンプルノートブックを例に、どんなことができそうか解説していました。今回は自分でも実際に触ってみて、自分が使っていく上で気になった細かいところまで確認したので、

    Amazon Athena for Apache Sparkをコンソールから使ってみよう! | DevelopersIO
    endor
    endor 2024/06/25
  • S3 Express One Zone をサポートするディレクトリバケットをAWSCLIで操作してみた | DevelopersIO

    S3 Express One Zone ストレージクラスをサポートする ディレクトリバケット、 作成、削除や、一覧確認などの操作を AWS CLIを利用して試す機会がありましたので、紹介させて頂きます。 準備 Amazon Linux 2023 の AMIで起動したEC2を実行完了として利用。 ARMアーキテクチャ用のawscliを最新バージョンに更新して利用しました。 sudo dnf remove awscli -y curl "https://awscli.amazonaws.com/awscli-exe-linux-aarch64.zip" -o "awscliv2.zip" unzip awscliv2.zip sudo ./aws/install sudo ln -s /usr/local/bin/aws /usr/bin/aws rm -rf aws awscliv2.zip

    S3 Express One Zone をサポートするディレクトリバケットをAWSCLIで操作してみた | DevelopersIO
    endor
    endor 2024/01/22
  • EMRのステップのキャンセルについて | DevelopersIO

    今回はEMRのステップ、つまりHiveやSparkなどのジョブのキャンセル方法について紹介します。以前紹介した以下のHadoop Streamingジョブを例にキャンセル方法について紹介します。 EMRでHadoop Streamingジョブを実行する 結論 先に結論を書いておきます。EMRの場合、ジョブはステップという単位で管理されるようになっています。このステップは実際に処理が開始される前はキャンセルすることが可能ですが、一旦処理が開始されるとキャンセルできません。処理が開始されている場合はマスターノードにSSHでログインしてyarn applicationコマンドを利用してジョブを停止する必要があります。 実行環境 emr-5.6.0 でアプリケーションは Hadoop のみ Hadoop 2.7.3 ハードウェア構成は m1.medium を 1 台(検証用なのでマスターノードのみ

    EMRのステップのキャンセルについて | DevelopersIO
    endor
    endor 2023/12/06
  • aws s3 ls があるなら aws s3 cat も実行したい、けど無理そうなので aws s3cat で我慢した | DevelopersIO

    aws s3 ls があるなら aws s3 cat も実行したい、けど無理そうなので aws s3cat で我慢した S3 オブジェクトの中身をローカルにダウンロードせずに参照したい コンバンハ、千葉(幸)です。 aws s3 cat を実行したい、そんな風に思ったことはありませんか?つまりは S3 オブジェクトの中身を参照するためにいちいちローカルにダウンロードしたくない、ということです。 例えばこんなふうに aws s3 ls で S3 バケットの中身を参照して…… $ aws s3 ls chibayuki-hoge-hoge/chibayuki/ 2022-02-13 13:17:45 0 2022-02-13 13:19:15 17 test.txt 2022-02-13 13:19:16 17 test2.txt 2022-02-13 13:19:16 17 test3.tx

    aws s3 ls があるなら aws s3 cat も実行したい、けど無理そうなので aws s3cat で我慢した | DevelopersIO
    endor
    endor 2023/09/12
  • EMR管理ポリシーをv1からv2に更新してみた | DevelopersIO

    EMRの管理ポリシーをv1(非推奨化予定)からv2に更新する機会がありました。EMR管理ポリシーのv1とv2でどのような差異があるか、どういった対応を行ったか記事にまとめます。 こんにちは、福岡オフィスのyoshihitohです。 先日、EMRの管理ポリシーをv1(非推奨化予定)からv2に更新する機会がありました。EMR管理ポリシーのv1とv2でどのような差異があるか、どういった対応を行ったか記事にまとめます。 前提条件 対象 Amazon EMR on EC2 が対象です Amazon EMR on EKS と Amazon EMR Serverless は対象外です システム構成 筆者が運用するシステムではMWAAからEMRクラスタを構築して日次バッチを実行しています。日次バッチはS3に配置したデータを処理して、その結果をGlueのデータカタログに登録しています。このシステムで利用

    EMR管理ポリシーをv1からv2に更新してみた | DevelopersIO
    endor
    endor 2023/09/11
  • 落とし忘れたAmazon EMRクラスターを通知する | DevelopersIO

    Amazon EMRを使った開発をしていると、うっかりクラスターを落とし忘れて運用費を圧迫してしまうことがあります。 AWS Lambdaでクラスターのランニング状況を監視し、落とし忘れたクラスターを通知する方法を紹介します。 アーキテクチャ 処理の流れは以下です Amazon CloudWatch Events で定期的に AWS Lambdaを呼び出す AWS LambdaEMR クラスター一覧の起動状況をチェック クラスターの起動時間が閾値を超えていると、Amazon SNS に通知 ウォークスルー それでは、実際に通知システムを作成します。 Step 1 : 通知用Amazon SNSの作成 通知用のAmazon SNS を用意します。 SNS より先の購読先は、E-Mailや Lambda 関数など各自用意してください。 Step 2 : Lambda 向け IAM Rol

    落とし忘れたAmazon EMRクラスターを通知する | DevelopersIO
    endor
    endor 2023/09/07
  • ベクトル特化型データベースサービス「Pinecone」でセマンティック・キーワード検索をやってみた | DevelopersIO

    記事では、マネージド・ベクトル・データベースの「Pinecone」を活用して、セマンティック・キーワード検索を実施していきます。 ベクトル分析は、類似性の計算やレコメンドの作成などで使われる機械学習のメジャーな分析手法ですが、それに特化したユニークなデータベースのSaaSを見つけちゃいました。 Pineconeについて Pineconeは2019年にカリフォルニア州で創業されたスタートアップです。もともとAmazon SageMakerの開発に携わっていた方が創業したようで、シード期ながら$10Mもの資金調達に成功しており、期待値の高さが伺えます。GooglePinterestのようなビッグカンパニーが使用している、高次元ベクトルのデータを格納できる機械学習用のデータベースを一般企業にも広めたい、というモチベーションのもとPineconeを開発・提供しています。 Pinecone la

    ベクトル特化型データベースサービス「Pinecone」でセマンティック・キーワード検索をやってみた | DevelopersIO
    endor
    endor 2023/06/10
  • [Emacs] キーボードマクロを使って作業効率アップ! | DevelopersIO

    キーボードマクロ キーボードマクロ とは複数のキー入力を 1 つの命令として定義したものです。 Emacs ではこのキーボードマクロをいつでも定義・実行することが可能です。 定義方法 キーボードマクロの定義開始/終了は以下のコマンドに割り当てられています。 C-x ( : 定義開始 C-x ) : 定義終了 開始から終了までの間に入力されたキーが 1 つの命令として登録されます。 実行方法 定義したキーボードマクロは以下のコマンドで実行します。 C-x e その後繰り返す場合は e を入力 例 以下のテキストをご覧ください。 このテキストの空行を排除する という作業をキーボードマクロを利用して実施します。 定義 カーソルが 1 行目の行頭にある状態で以下を入力します。 C-x ( C-n C-d C-x ) 次の行に移動 と 1 文字削除(行削除) という処理をキーボードマクロとして定義し

    [Emacs] キーボードマクロを使って作業効率アップ! | DevelopersIO
    endor
    endor 2023/05/22
  • ChatGPTで自前のドキュメントを利用できるプラグイン、「ChatGPT Retrieval Plugin」の概要 | DevelopersIO

    2023年3月23日、OpenAI社はChatGPTでのプラグインの立ち上げを発表しました。 これにより、ChatGPTとさまざまな情報を組み合わせることができるようになり、ChatGPTが利用できるシーンはさらに多様になっていくと予想されます。 この発表と併せて、OpenAI社のGithubリポジトリで、「ChatGPT Retrieval Plugin」が公開されました。 このプラグインにより、ChatGPTで自前のドキュメントを利用する(つまり、自前のドキュメントの情報をもとにしたQ&Aなどができる)ようになるようです。 2023年3月24日現在、まだChatGPTのプラグイン自体は利用するにはWaitlistに登録して順番を待たなければいけない状態です。そのため、このプラグインをいまいま試すことはできないのですが、Github上のREADMEを読み解いて、どんなことができるかなどざ

    ChatGPTで自前のドキュメントを利用できるプラグイン、「ChatGPT Retrieval Plugin」の概要 | DevelopersIO
    endor
    endor 2023/05/18
  • ChatGPT plugins のベータ提供が開始され、約70種類のプラグインが利用可能になりました | DevelopersIO

    こんにちは、CX事業部 Delivery部の若槻です。 今回は、ChatGPT plugins のベータ提供が開始されていたので、現在利用可能なプラグインと、実際に試してみた内容についてご紹介します。 ChatGPT plugins とは ChatGPT UI 上で 3rd-party アプリケーションを利用できるようにする機能です。 プラグインを追加することにより、ChatGPT に対して次のような機能拡張を行うことができます。 リアルタイムな情報の取得(例:スポーツのスコア、株価、最新ニュースなど) プライベートなナレッジベースからの情報取得(例: 社内ドキュメント、個人的なメモなど) チャットベースのアクション代行(例: 航空券の予約、フードの注文など) 各社が ChatGPT 向けのプラグインをこぞって開発するようになれば、ChatGPT がツールの枠を超え一種のプラットフォーム

    ChatGPT plugins のベータ提供が開始され、約70種類のプラグインが利用可能になりました | DevelopersIO
    endor
    endor 2023/05/18