タグ

機械学習とCSVに関するslay-tのブックマーク (3)

  • Amazon SageMakerを利用した効率的な機械学習 with Rust | ⬢ Appirits spirits

    はじめに デジタルイノベーション部の浅田です。 クラウドを利用した開発を行うにあたって、クラウドを上手く利用しようとすればするほど、ローカル開発環境と番環境(クラウド環境)とでの実装方法の差分を少なくすることが効率的に開発を行う上で重要になってきます。 例えば、Amazon DynamoDBを利用してサービスを開発しようとすると、ローカル開発環境でどのように開発を進めるか?という課題が生まれます。DynamoDBであれば、ローカルのエミュレータが提供されているので、それを利用するという解決策が考えられます。 機械学習においても、ローカル開発環境と番環境とのやり方を統一できたほうが、効率的に開発ができます。 その一つのやり方が、Amazon SageMaker(以下SageMaker)を利用することで、ローカル環境と番環境とで差分の少ない、統一的な方法で開発することです。 また、機械学

    Amazon SageMakerを利用した効率的な機械学習 with Rust | ⬢ Appirits spirits
  • pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

    概要 分析のためにデータ集めしていると、たまに マジか!? と思うサイズの CSV に出くわすことがある。なぜこんなに育つまで放っておいたのか、、、? このエントリでは普通には開けないサイズの CSV を pandas を使ってうまいこと処理する方法をまとめたい。 サンプルデータ たまには実データ使おう、ということで WorldBankから GDPデータを落とす。以下のページ右上の "DOWNLOAD DATA" ボタンで CSV を選択し、ローカルに zip を保存する。解凍した "ny.gdp.mktp.cd_Indicator_en_csv_v2.csv" ファイルをサンプルとして使う。 http://data.worldbank.org/indicator/NY.GDP.MKTP.CD?page=1 補足 pandas の Remote Data Access で WorldBan

    pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
  • 機械学習のための日本語前処理 - Qiita

    はじめに 機械学習を使ったチャットボットの仕組みを理解するために、テキストを訓練データとする簡単なニューラルネットワークを作成した際の備忘録。 目的 英文テキストで作成したルールベース型チャットボットを、日語テキストにも適用して動作させること。日語テキストを前処理し、それをニューラルネットワークへ通せることを確認する。訓練データとして、Niantic社の"Pokemon GO"に関連したサポートページをWebスクレイピングしたものを使用した。 Nianticサポートページ 使用しているCSVファイル(GitHub) マルチクラス分類 予め用意された応答文を入力にあわせて返す「ルールベース型」を参考に、"Intents"(意図)を識別して予測するマルチクラス分類の部分までを形にした。 「生成型」ではなく、入力情報から関連した「よくある質問(FAQ)」を予測するものであるため、”RNN”で

    機械学習のための日本語前処理 - Qiita
  • 1