タグ

ブックマーク / tech.datafluct.com (8)

  • 機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog

    こんにちは! nakamura(@naka957)です。 今回はクラスタリングをご説明します。クラスタリングは教師なし学習に代表される手法の1つで、正解情報なしでデータ間の類似性を推定し、グループ化する手法です。DATA Campusでは、これまでに教師なし学習の概要とその手法の1つの主成分分析について解説しています。そちらも是非参考にしてみてください。 ■機械学習における教師なし学習の理解を深める ■教師なし学習の実践 主成分分析で高次元データを可視化する 記事では、最初にクラスタリングの概念と主要な手法であるk-means法について説明します。次に、実装例の紹介に加え、同じ教師なし学習である主成分分析と組み合わせることで、クラスタリングをより有効に機能する例も紹介します。k-means法は単純なアルゴリズムで、様々な場面で簡単に適用できる手法です。是非、この機会にマスターしてみてくだ

    機械学習 実践 - クラスタリングでデータ間の関係を把握する - DATAFLUCT Tech Blog
  • WordCloudの弱点と精度を高めるための形態素解析について - DATAFLUCT Tech Blog

    みなさん、こんにちは。DATAFLUCTのKazumiです。 前回の記事( WordCloudで小説の特徴を テキストマップ化してみた )でWordCloudを用いたテキストマップの作成を紹介しました。そこではWordCloudを使って、テキスト内でよく使われる単語を可視化できました。今回はその仕組みともっと良くするための方法について話していきます。 WordCloudにはできないことがある! そもそも形態素解析というのは何か? 形態素への理解 形態素を解析する、とは ①文章を分割する ②品詞をつける WordCloudの弱点と応用 WordCloudの形態素解析が粗い理由 WordCloudをうまく扱うには おわりに 参考文献 WordCloudにはできないことがある! まず、WordCloudにはできないことについて説明します。 WordCloudを使って作った、次の2つのテキストマッ

    WordCloudの弱点と精度を高めるための形態素解析について - DATAFLUCT Tech Blog
  • MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog

    こんにちは!nakamura(@naka957)です。今回はMLflowをご紹介します。 読者の皆さんは、機械学習モデルのハイパーパラメータ調整を手作業で管理し、苦労した経験がないでしょうか。実験記録の管理は大事な一方で、なかなか大変です。 今回紹介するMLflowは、実験記録を簡単に管理できる便利なPythonライブラリです。MLflowは実験管理だけでなく、機械学習プロジェクト全体を管理する様々な機能を提供する非常に人気なライブラリです。一方で、多機能な反面で初心者が最初に導入するにはハードルが高い側面があるのも事実です。 記事では、MLflowの実験管理の機能に絞り、簡単な例で使い方をご説明します。そのため、初めて使用する方も安心してご覧ください。 では、早速始めていきます。 実験記録の重要性 MLflowとは MLflowのインストール データセット準備 機械学習モデルの用意 M

    MLflowの使い方 - 機械学習初心者にもできる実験記録の管理 - - DATAFLUCT Tech Blog
  • Tensorflow Data Validationを用いた機械学習用データセットの検証方法 - DATAFLUCT Tech Blog

    こんにちは!nakamura(@naka957)です。記事では、TensorFlowの拡張機能であるTensorFlow Data Validationを用いたデータセット検証を行う方法をご紹介します。 データセット検証とは、機械学習モデルの構築時に使う訓練データと運用データの間の違いを調べることです。訓練データと運用データの性質に違いが存在すると、モデル精度の悪化に繋がります。そのため、構築したモデルの精度監視だけでなく、より前工程となるデータセット時点での検証も非常に重要になります。特に、データセットサイズが大きくなるほど、手作業での検証が困難となるため、効率的で自動化された検証方法が求められてきます。 データセット検証を行うライブラリは様々ありますが、今回は機械学習の実装フレームワークとして特に有名なTensorFlow系のライブラリを用いて行います。 では、早速始めていきます。

    Tensorflow Data Validationを用いた機械学習用データセットの検証方法 - DATAFLUCT Tech Blog
  • 時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog

    こんにちは! 以前にDartsという時系列分析に特化したpythonライブラリを紹介しました。 前編はこちら 今回は実際にDartsを動かしていきましょう。 Darts内にもデータセットがありますが、公式でも触れられているのであえて、外部のデータを参照してみましょう。導入編でも触れたアイスクリームの生産量の変化を推測したいと思います。 アイスクリームのデータセットはこちら 上記リンクの上部右側Downloadからcsvをダウンロードしてください。 Dartsのインストールは以下の1コマンドです。Windowsではデフォルトのコマンドプロンプトでうまくインストールが終了しなかったので、WSL環境などを推奨します。 $ pip install darts ARIMAで学習してみる バックテストでモデルの選定を行う RNNで共変量を扱ってみる まとめ ARIMAで学習してみる まずは、導入編で最

    時系列分析をお手軽に!機械学習ライブラリDartsの実演 - DATAFLUCT Tech Blog
  • 機械学習の運用に欠かせないドリフト(Drift)の概念と重要性 - DATAFLUCT Tech Blog

    こんにちは!nakamura(@naka957)です。 ドリフト(Drift)という言葉をご存知でしょうか?機械学習のサービスを運用する上で重要な項目ですが、知らない人も多いのではないでしょうか。 機械学習プロジェクトは、モデルを構築するまでがゴールではありません。番環境での運用を続けることがゴールです。ところが、番環境モデルは徐々に精度が低下していきます。そのため、時機を見計らって再学習が必要です。 このように、モデルの精度が想定からズレることをドリフトすると言います。ドリフトはモデルの運用のために重要となる概念です。 記事では、ドリフトの概念と重要性を説明していきます。 ドリフトとは コンセプトドリフト データドリフト ドリフト検知後の再学習 まとめ 参考文献 ドリフトとは ドリフトとは、番環境のモデル精度が低下する現象を指します。 ドリフトは主に2種類に分けられ、コンセプトド

    機械学習の運用に欠かせないドリフト(Drift)の概念と重要性 - DATAFLUCT Tech Blog
  • PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog

    こんにちは!nakamura(@naka957)です。記事では、PyCaretで簡単に探索的データ分析を行う方法をご紹介します。 探索的データ分析(Explanatory Data Analysis: EDA)とは、データセットを様々な視点から分析し、データを考察することを目的に行うことです。EDAで得られた知見や仮説を活用し、その後のデータ分析機械学習モデルの構築を有効に行うことができます。 データを考察するための最も有効な手法は、可視化することです。そのため、データを可視化するスキルはEDAにおいて非常に重要になります。記事ではEDAを目的とした可視化する方法をご紹介します。 では、早速始めていきます。 PyCaretとは AutoVizとは ライブラリのインストール 実行の前準備 EDAの実行 散布図 棒グラフ 密度分布 Violinプロット ヒートマップ(相関係数) Auto

    PyCaretからAutoVizを使用して探索的データ分析(EDA)を簡単に行ってみる - DATAFLUCT Tech Blog
  • 図解でわかる、機械学習をどこよりも簡単に解説 - DATAFLUCT Tech Blog

    はじめまして、DATAFLUCTのSaiです。 この記事では「機械学習」について、AIやディープラーニングの違いに触れながら分かりやすく解説していきます。 また機械学習を知る上で欠かせない AI ディープラーニング 教師あり学習、教師なし学習、強化学習 回帰、分類 精度 といった用語も図をまじえて最後まできちんと理解できるようになっています。 身近にある機械学習 1. 迷惑メール判定 2. チャットボット 機械学習とは ディープラーニングと機械学習の関係 ディープラーニングは複雑なデータが得意ってどういうこと? データから特徴や法則性を見つけ出すってどういうこと? 機械学習の種類 教師あり学習 教師なし学習 強化学習 最後に 身近にある機械学習 機械学習とは何かを説明する前に、身近なところで機械学習が使われてるケースを2つ紹介します。 1. 迷惑メール判定 1つ目のケースとして、機械学習

    図解でわかる、機械学習をどこよりも簡単に解説 - DATAFLUCT Tech Blog
  • 1