タグ

ブックマーク / zenn.dev/yag_ays (4)

  • Sentryを使ったScrapyのウェブクローリング監視

    クローリング監視の必要性 ウェブサイトのクローリングは、インターネット上の情報を自動的に収集する方法です。機械学習の文脈では、言語モデルや辞書作成などのデータの収集に欠かすことができません。必要な質および量のデータを収集するためには、定期的かつ大規模なクローリングが必要となります。 さて、クローリングを実装し運用する上で問題となるのが、エラーの対応です。インターネットを通じてウェブページをクローリングする際には、以下のような問題が偶発的に発生します。 ネットワーク的な問題でリクエストがタイムアウトする リクエスト先のサーバの問題で、正常にHTMLが読み込まれない ウェブページの構造が変わってしまい、意図した抽出処理が失敗する 上の2つは実行時の外部環境に起因するため時間を空けたり再実行することで解決することがありますが、最後の1つは外部環境の変化に対して自身のコードが対応できていない問題で

    Sentryを使ったScrapyのウェブクローリング監視
    misshiki
    misshiki 2023/09/04
    “Sentryを利用してScrapyの実行中に起きたエラーを記録するための方法を紹介します。ScrapyはPythonで実装されたクローリングフレームワークです。”
  • 機械学習の推論WebAPIの実装をテンプレート化して使い回せるようした

    概要 機械学習を利用したウェブサービスを開発していると、WebAPIとして外部から利用できる形で機械学習の推論を実行可能にしたいということがよくあると思います。私も幾度となくそうした実装をする中で使いまわし定番のコードを用意しているので、知識の棚卸しや改めて新しい技術を学ぶという意味でも、久しぶりに構造や技術スタックを刷新したものを今回作成しました。 そこで記事は、テンプレート化した機械学習のWebAPI実装の構成と、そこから実際に機械学習の推論を行うWebAPIを作る過程を書いてみようと思います。 テンプレートプロジェクト 今回作ったテンプレートプロジェクトはyagays/fastapi-ml-templateです。 利用しているパッケージ/ツール 利用している技術スタックとしては以下のようになっています。 Web API Pythonのパッケージ依存関係管理: Poetry Webフ

    機械学習の推論WebAPIの実装をテンプレート化して使い回せるようした
    misshiki
    misshiki 2022/02/18
    “テンプレート化した機械学習のWebAPI実装の構成と、そこから実際に機械学習の推論を行うWebAPIを作る過程”
  • テキストから日付や時間を抽出するPythonパッケージ ja-timex を作りました

    語の自然言語で書かれたテキスト中から、日付や時間、期間、頻度といった時間に関する表現を抽出し、Pythonのdatetime/timedelta形式に変換できるPythonパッケージ ja-timexを作りました。この記事では基的な使い方や動作の仕組み、このパッケージの実装方針を紹介します。 ja-timexとは 皆さんも一度はテキスト中に現れる日付や時間を正規表現でパースした経験があるのではないでしょうか?もしくはdatetime.strptime(str, '%Y/%m/%d %H:%M')といったように、datetimeに変換するパターンを書くこともあるでしょう。こうしたプログラム上で日付や時間を扱うことはよくある作業であるものの、入力されるフォーマットが複雑になったり、日付がテキストの中の一部に含まれたりすると、途端に処理が面倒になります。日付や時間は決まったルールに従ってい

    テキストから日付や時間を抽出するPythonパッケージ ja-timex を作りました
    misshiki
    misshiki 2021/08/04
    “日本語...テキスト中から、日付や時間、期間、頻度といった時間に関する表現を抽出し、Pythonのdatetime/timedelta形式に変換できるPythonパッケージ ja-timex...基本的な使い方や動作の仕組み、このパッケージの実装方針を紹介”
  • Python&Plotlyを使って、OCR結果を画像上でインタラクティブに可視化する

    概要 OCRを使った文字読み取りの開発をしていると、読み取られたテキストと画像と見比べて結果の確認をすることがよくあります。読み取られたこの文字は画像のどこから出てきたのかとか、単語の区切りが不自然なときになぜそうなったのかとかといった確認の際には、テキストとその座標から画像中の該当箇所を見つける必要があり、人間が目視で行うにはなかなか大変な作業です。物体認識などのタスクでは、画像上に四角形のバウンディングボックスを物体名のラベルとともに描写して可視化していますが、OCRの読み取りの場合は文字が画像上で密に配置されていたりと、画像上に直接描写するには情報量が過多になってしまいます。なるべくインタラクティブに操作出来る形で情報を表示し、必要な部分だけを確認できるようにしたい場合が多いです。 この記事では、OCR読み取りの結果を画像上に描写して、インタラクティブに結果を確認する方法を紹介します

    Python&Plotlyを使って、OCR結果を画像上でインタラクティブに可視化する
    misshiki
    misshiki 2021/02/17
    “OCR読み取りの結果を画像上に描写して、インタラクティブに結果を確認する方法を紹介”
  • 1