エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part3
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Apache Airflowでエンドユーザーのための機械学習パイプラインを構築する Part3
Part2では、Airflowの基本的な使い方を学びました。Part3では、実際にパイプラインの実装に入っていきた... Part2では、Airflowの基本的な使い方を学びました。Part3では、実際にパイプラインの実装に入っていきたいと思います。とはいえ一度に全部は作れないため、パートに分けて作成をしていきます。今回は、データ収集を担当するパートの一部を実装しようと思います。 Part3にて実装の範囲: データの取得処理具体的には、以下の処理のうち1~2を実装してみます。 EDINETから、決算関連文書のリストを取得するリストに掲載された文書をダウンロードして、ストレージに格納するダウンロードされた文書からテキストを抽出し、DBに格納する抽出したテキストから特徴量を計算し、ストレージに格納するEDINETは、企業の決算文書などを公開している金融庁のシステムです。最近APIで文書にアクセスできるようになったため、こちらを題材に使ってみたいと思います。 基本的には、ファイルダウンロード・テキスト抽出・特徴量抽