タグ

2020年2月18日のブックマーク (6件)

  • DatabricksでSpark Structured Streamingをやってみる - Qiita

    ストリーミング処理とは、大量のデータをロードしながら順番に処理していく処理方法です。 非同期に順番に処理していくだけなので、論理的にはできそうだけど可用性やスケール性を考えるとなかなか難しい領域です。 そんなストリーミング処理を、DatabricksというSparkのプラットフォーム上で、Spark Structured Streamingを使って実現する方法をまとめていきます。 Databricksは、Apache Sparkを作った人が創業した会社で、AWSやAzureといったクラウド上に、Spark環境を自動的に構築してくれるサービスです。 昨年約430億円調達し、バリュエーションが6700億円というみたこともない金額になっているらしいです。 参考記事 会社名をあまり聞いたことがない方も多いかもしれませんが、Spark&AI Summitを主催するなど、データエンジニアリング界隈では

    DatabricksでSpark Structured Streamingをやってみる - Qiita
  • Linux 5.5におけるBPF(Berkeley Packet Filter)の新機能

    Linux 5.5におけるBPF(Berkeley Packet Filter)の新機能:Berkeley Packet Filter(BPF)入門(7) Linuxにおける利用が急速に増えている「Berkeley Packet Filter(BPF)」について、基礎から応用まで幅広く紹介する連載。今回は、Linux 5.5で導入されたBPFに関する主な新機能について。 Linuxにおける利用が急速に増えている「Berkeley Packet Filter(BPF)」について、基礎から応用まで幅広く紹介する連載「Berkeley Packet Filter(BPF)入門」。 2020年1月26日にLinux 5.5がリリースされたので、今回は通常の連載内容を中断して、Linux 5.5で導入されたBPFに関する主な新機能を紹介します。 BPF Trampoline BPF Trampoli

    Linux 5.5におけるBPF(Berkeley Packet Filter)の新機能
  • BigQuery上の自動テスト開発のススメ

    ​​特にBigQueryのようなカラムナ型ストレージを採用するシステムでは、RDBMSに用意されているユニーク制約や外部参照制約といったレコードに制約を課すことができません。このためテーブルの結合というSQLの簡単な操作でも思わぬ形で整合性を崩す恐れがあります。 ​​また大規模データ処理ではRDBMSでは扱わないような大量のイベントデータを時系列で大量に取り扱う必要があります。このようなイベントデータは、発生源であるアプリケーションのデータウェアハウジングの外部のシステムからの影響を受けやすくなります。加えて、プロダクト開発において、アプリケーションが変化しないということは起こりえないため、データの特性自体も中長期で見た場合に不安定です。

  • Docker上でGUIのROS1/ROS2を一瞬でセットアップする方法 - Qiita

    Docker上でGUIROSを動かす TiryohさんがGitHub上で素晴らしいリポジトリを公開していました。 素晴らしさに感動してしまったので、素晴らしさを少しでも広めるために、簡単な紹介記事を書いてみます。 このリポジトリは、Docker上でGUIROSを動かすことができます。Dockerさえ入っていればMacでもLinuxでも(多分)Windowsでも、一瞬でUbuntu+ROSの環境が手に入ります。ROSはセットアップがそれなりに大変なので、Dockerさえ入っていればコマンド一発で環境構築できるのは最高ですね。 Dockerって何?という方やインストール方法が分からない方は、以前私のブログに書いた下記記事を参照下さい。 Dockerをインストールしたら、後は以下のコマンドを実行するだけです。

    Docker上でGUIのROS1/ROS2を一瞬でセットアップする方法 - Qiita
  • GitHub Actions と AWS CodeBuild テストを使用して Amazon ECS の CI/CD パイプラインを作成する | Amazon Web Services

    Amazon Web Services ブログ GitHub Actions と AWS CodeBuild テストを使用して Amazon ECS の CI/CD パイプラインを作成する  Amazon Elastic Container Service (Amazon ECS) は、フルマネージド型のコンテナオーケストレーションサービスであり、コンテナ化されたワークロードを大規模かつ簡単に運用できます。  また、Amazon Route 53、AWS Identity and Access Management (IAM)、Amazon CloudWatch などの他の主要な AWS のサービスと統合します。  コンテナの管理に使用しているプラットフォームに関係なく、コンテナ化されたアプリケーションにとって効果的かつ効率的な CI/CD パイプラインを確立することは重要です。 この投

    GitHub Actions と AWS CodeBuild テストを使用して Amazon ECS の CI/CD パイプラインを作成する | Amazon Web Services
  • 大規模日本語ビジネスニュースコーパスを学習したALBERT(MeCab+Sentencepiece利用)モデルの紹介 - Qiita

    はじめに 以前、日語のBERT事前学習済モデルやXLNet事前学習済モデル等の紹介記事を投稿しましたストックマークの森長です。 モデル公開の記事を多くの皆様に読んでいただき、ありがとうございます。 今回は、ALBERTの日語事前学習済モデルを公開します。 さて、様々な事前学習済モデルが多数提案されている中、なぜALBERT日語モデルを公開するかといいますと、ALBERTが、A Lite BERTと記載されるように、ただSOTAを突き詰めたものではなく、精度を維持・向上させつつもBERTを軽量化しているモデルのためです。 事前学習済モデルのサイズを大きくすると性能が向上する傾向にありますが、学習時間が長くなったりメモリにのらなくなったり、作成の上での制約が(費用面の制約も)増えてきます。そのため、比較的短時間でモデルを作成でき、モデルサイズが小さいALBERTは、とても使いやすいです。

    大規模日本語ビジネスニュースコーパスを学習したALBERT(MeCab+Sentencepiece利用)モデルの紹介 - Qiita