並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 33 件 / 33件

新着順 人気順

Apacheの検索結果1 - 33 件 / 33件

  • pixivの全文検索基盤とElasticsearchによるリプレイス - pixiv inside

    まもなく17周年を迎えるpixivでは、長年にわたり作品などの全文検索基盤としてApache Solrを使用してきました。 しかし、サービスの規模が拡大する中で、従来の基盤に問題が生じていました。これを受けて、pixivでは全文検索基盤のリプレイスを実行しました。 今回のリプレイスにより、pixivでは検索結果の更新反映時間や検索APIのレイテンシが大幅に短縮されました。また、今後のスケールに対応可能になり、新機能開発においても全文検索が容易に利用できるようになりました。 本記事では、pixivの全文検索基盤の歴史や、今回オンプレミス環境でElasticsearchクラスタを構築し、リプレイスを完了するまでの取り組みについてご紹介します。 こんにちは。pixivのnamazuです。最近、私たちのチームで進めていたpixivの全文検索基盤のリプレイスが完了しました。この機会に、pixivの全

      pixivの全文検索基盤とElasticsearchによるリプレイス - pixiv inside
    • Parquetフォーマット概観 - 発明のための再発明

      Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に

        Parquetフォーマット概観 - 発明のための再発明
      • 商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso

        これらのデータセットに含まれる画像のみを使っているため、学習画像に対する透明性は限りなく高いと考えております。もし問題のある画像が見つけたら、ご報告いただけると今後の開発に助かります。なお、同様の考え方を持って作成されたモデルとして、Stable Audio Open 1.0があります。 日本語と英語の文章がそのまま通じる画像生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、画像生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。 そこで、本画像生成は日本語を日本人の話す感覚と近いかたちで処理し、画像を生成できるようにしました。具体的には入力テキストを処理する技術を通常の言語モデルから大規模言

          商用利用できる透明性の高い日本語画像生成AI、CommonArt βを無償公開|AI Picasso
        • データにまつわる“お悩み”を根こそぎ解決。リクルートのビジネスを支える影の仕事人「アナリティクスエンジニア」の素顔 - はてなニュース

          データを利活用してカスタマー・クライアント双方の「不」の解消を目指してきたリクルートが、今注力する領域は「データを用いた意思決定の質向上」とそのための「データの整備」です。 そこにフルコミットするため、新たに生まれた職種がアナリティクスエンジニアです。例えば、図書館を作るのがデータエンジニアで、図書館に収納された本を使って価値を生み出すのがデータサイエンティストだとすれば、本の整理や目録の作成などを通じてさながら司書のような役割を果たすのがアナリティクスエンジニアです。言うなれば「データの整備人」。 リクルートにおいては、データを用いた意思決定を加速させるうえで、必要不可欠の存在です。 とはいえ、まだまだ一般的には知られていないアナリティクスエンジニアの仕事。彼らは組織のなかでどのような役割を果たし、どのように事業へ貢献しているのでしょうか。そしてどんなバックグラウンドを持っているのでしょ

            データにまつわる“お悩み”を根こそぎ解決。リクルートのビジネスを支える影の仕事人「アナリティクスエンジニア」の素顔 - はてなニュース
          • カーネルにDBMSを載せた分散OS「DBOS」の特徴と利点は? サーバレスでTypeScriptとPythonの実行に対応

            カーネルにDBMSを載せた分散OS「DBOS」の特徴と利点は? サーバレスでTypeScriptとPythonの実行に対応 マサチューセッツ工科大学(MIT)とスタンフォード大学の研究者によって考案された分散OS「DBOS」が、TypeScriptに加えてPythonの実行に対応したことが発表されました。 DBOSはOS内部にデータベースが組み込まれており、OSやアプリケーションのすべての処理や状態をデータベースが記録します。そのため、アプリケーションやOSが何らかの原因で終了したとしても、処理や状態を失うことなく終了したところから再開できるなどの利点を備えています。 これによりTypeScriptやPythonで耐久性の高いアプリケーションの構築を容易にしています。 DBOS is coming to #Python! Development of the DBOS Transact f

              カーネルにDBMSを載せた分散OS「DBOS」の特徴と利点は? サーバレスでTypeScriptとPythonの実行に対応
            • ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと

              ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと オランダに本社を置くElasticは、ElasticとKibanaのライセンスにオープンソースライセンスであるAGPLを追加すると発表しました。 3年前の2021年、同社はElasticをマネージドサービスとして提供しているAWSを名指しで非難しつつ、ElasticのライセンスをApache License 2.0から、商用サービス化を制限する「Server Side Public License」(SSPL)と「Elastic License」のデュアルライセンスへ変更しました。 それ以来、ElasticとKibanaはオープンソースではなくなっていました。 同社CEO Shay Banon氏は、今回のオープンソースへの復帰を発表したブログの

                ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと
              • WordPressのuploadsにあるファイルへの直接アクセスを制限(WP新仕様対応) - Qiita

                WooCommerceというWordPress用プラグインでショップを構築している。最近、デジタル商品(PDF)の販売もやり出しているのだが、一つ問題があって、WordPressはメディアファイルをアップロードすると/wp-content/uplaods/というディレクトリ以下にファイルが置かれるのだが、これには何も制限がかかってなくて、直接URLを入力したらファイルが表示されてしまう。これじゃ販売してる意味がないし、検索エンジンクローラーにも引っかかってしまう。 まぁFTP使って、直接アクセスできない領域に置けばいいじゃないかという話もあるのだが、諸事情からそれは見送り(詳細省きます)。次のような要件を.htaccessで実現することにした。 要件 デジタル商品(.pdf、.mp3、.zip)へのアクセスは禁止 ただし拡張子の前に_sampleと着いているものはアクセス可能。 e.g.

                  WordPressのuploadsにあるファイルへの直接アクセスを制限(WP新仕様対応) - Qiita
                • PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics

                  はじめに こんにちは。ついにジム通いを始めて四六時中筋肉痛を感じながら過ごしているイワツカです。 最近はLLM(大規模言語モデル)とRAG(検索拡張生成)を用いて企業内ドキュメントを活用する取り組みが多く見受けられます。 ドキュメントは基本PDFで保存されているため、PDFからテキストを抽出して、検索対象にすることが必要です。 そこで今回は、PythonでPDFからテキストを抽出するためのライブラリを比較して、どれが良いのか検証しました。 はじめに 概要 実装 PyMuPDF pdfplumber unstructured 比較結果 テキスト抽出 サンプル1のテキスト抽出結果 サンプル2のテキスト抽出結果 表の抽出 サンプル3の表抽出結果 サンプル4の表抽出結果 検証結果 まとめ 概要 今回はPDF読み取りライブラリとして、PyMuPDF、pdfplumber、unstructuredの3

                    PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics
                  • 夏休みなのでニューラルネットワークの勉強をした - ポルノアニメ

                    お久しぶりです。AIが流行ってますね。AI、AI、猫も杓子もAI。ボヤボヤしてると後ろからバッサリだ。 私の普段の仕事は地理情報の可視化、というか具体的に言うとLeafletを拡張して独自のレイヤを作ったりみたいなことをやっているのですが、オフィスに(たまに)行くとAIが何だGPTがどうだという話になっており、もうそろそろAIから逃げられない情勢になってきました。 ということで、去年あたりから知人のフバさん(人の名前です)が推薦していた本「深層学習」でぼちぼちニューラルネットワークの勉強をしていました。 ↑これがフバさんです。異常なシャツを着ていますが彼は機械学習のエキスパートです。 *1 ↑ちなみにこれは私です。 まあそれはさておき 実は学生時代に講義でNNやバックプロパゲーションを教わった筈なんですが、よく分からないまま終わってしまったんですよね。確かExcelでやらされたんですよ。当

                      夏休みなのでニューラルネットワークの勉強をした - ポルノアニメ
                    • サーバーレス技術の今と未来についてServerlessDays TokyoのPreEventで話してきました - めもおきば

                      𝕏にURL貼れなくなっているので、Zennにもマルチポストしています。 ServerlessDays Tokyo 2024 PreEvent 2024-09-21のServerlessDays Tokyo 2024にむけて、去年に引き続き、直前イベントでサーバーレス技術の今と未来について話してきました。 いよいよ明日からメインイベントですので参加お待ちしています! Serverless Update 2024 文字起こし スライド全体はDocswellさんで公開しています。 サーバーレスのおさらい 「サーバーレス」は、誤解を招きやすい技術用語で様々な定義がありますが、ここでは2つの視点で定義します。 運用者の視点としてのサーバーレスは、物理的なマシンや仮想マシン、EC2インスタンスのような「サーバー」を自分で管理するのではなく、その管理をクラウド事業者に任せるという考え方で、要するに完全

                        サーバーレス技術の今と未来についてServerlessDays TokyoのPreEventで話してきました - めもおきば
                      • 東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab

                        発表のポイント 経産省及びNEDOが進める日本国内の生成AI基盤モデル開発を推進する「GENIAC」プロジェクトにおいて、松尾・岩澤研究室が「Tanuki-8×8B」を開発・公開。 本モデルは、フルスクラッチで開発されており、対話、作文能力を評価する指標「Japanese MT-Bench」において「GPT-3.5 Turbo」と同等以上の性能を達成。 Apache License 2.0のライセンスに基づき、研究および商業目的での自由な利用が可能。「Tanuki-8×8B」の軽量版である、「Tanuki-8B」をチャット形式で利用できるデモも公開。 本モデルのNejumi LLMリーダーボード3における評価 発表内容 東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が推進する、

                          東京大学松尾・岩澤研究室 GENIACプロジェクトにおいて、大規模言語モデル「Tanuki-8×8B」を開発・公開 | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab
                        • サーバーレス技術の今と未来についてServerlessDays Tokyo 2024 直前イベントで話してきました

                          ServerlessDays Tokyo 2024 PreEvent 2024-09-21のServerlessDays Tokyo 2024にむけて、去年に引き続き、直前イベントでサーバーレス技術の今と未来について話してきました。 いよいよ明日からメインイベントですので参加お待ちしています! Serverless Update 2024 文字起こし スライド全体はDocswellさんで公開しています。 PreEventはYouTubeでアーカイブがあります。 サーバーレスのおさらい 「サーバーレス」は、誤解を招きやすい技術用語で様々な定義がありますが、ここでは2つの視点で定義します。 運用者の視点としてのサーバーレスは、物理的なマシンや仮想マシン、EC2インスタンスのような「サーバー」を自分で管理するのではなく、その管理をクラウド事業者に任せるという考え方で、要するに完全従量課金型のフル

                            サーバーレス技術の今と未来についてServerlessDays Tokyo 2024 直前イベントで話してきました
                          • Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)

                            こんにちわ!Databricksはじめたいけど情報が、、、ない、、、?という方?あるよー!ここにあるよー! というわけで、Databricks関連情報をまとめていきたいと思います。 書籍 まずはこれ「データブリックス-クイックスタートガイド」Databricksとはなぜ生まれてきたのか、どういうアーキテクチャなのか、といった最初の一歩がうまく書かれている本です。 Unity Catalogなどが入る前の本なので若干古いのですが、アーキテクチャの思想や基本的な部分についてはわかりやすいのでぜひ。僕もここから入りました。 つぎはこれ、「Apache Spark 徹底入門」、Apache Sparkの書籍ですが、Databricksの情報も入っております。まずは基本となるSparkの知識を仕入れつつDatabricksの情報も仕入れていきましょう! 同人誌 有志の方々が出版されているDatabr

                              Databricks情報を手に入れろ!?Databricks関連書籍やウェブ上のポインタなど(長い)
                            • Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog

                              はじめに こんにちは。LegalOn Technologies 検索・推薦チームの臼井(jusui)です。 私たちのチームは、LegalOn Technologies が提供する主要サービス—「LegalOn Cloud」、「LegalForce」、「LegalForceキャビネ」—の検索・推薦システムの開発と運用を担当しています。 2024年7月に当チームから「Dataflow 実践開発セットアップ」を公開しました。 tech.legalforce.co.jp 今回は、2024年4月から提供開始した弊社の新サービス「LegalOn Cloud」の初回リリースに向けて開発した Indexing pipeline とその後の改善についてご紹介します。具体的には、Cloud Pub/Sub と Cloud Dataflow を活用した Indexing pipeline の開発により、Elas

                                Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog
                              • GitHub Actions で Amazon Inspector を利用した脆弱性スキャンを行う - 電通総研 テックブログ

                                こんにちは。コーポレート本部 サイバーセキュリティ推進部の耿です。 2024/6に Amazon Inspector が GitHub Actions でのコンテナイメージスキャンをサポートしたとのアナウンスがありました。コンテナイメージの脆弱性スキャンに既にTrivyを利用している方も多いと思いますが、別の選択肢として Inspector によるスキャンを試してみました。 また、実はコンテナイメージのスキャンだけではなく、言語パッケージのバージョンファイルやDockerfileを静的解析することも可能のため、それもやってみました。 仕組み アクションを紐解く リポジトリ内のファイルをスキャンする場合 試してみた サマリページの結果 CSV形式の検出結果 JSON形式の検出結果 Markdown形式の検出結果 脆弱性が検出されなかった場合 コンテナイメージをスキャンする場合 サマリページの

                                  GitHub Actions で Amazon Inspector を利用した脆弱性スキャンを行う - 電通総研 テックブログ
                                • タンパク質構造予測AIモデル「AlphaFold3」のオープンソース実装がついに公開される

                                  タンパク質やその他の生命分子の構造を予測するGoogle DeepMindのAIモデル「AlphaFold 3」がオープンソースで実装され、進行中の研究プロジェクトがGitHubで公開されました。 GitHub - Ligo-Biosciences/AlphaFold3: Open source implementation of AlphaFold3 https://github.com/Ligo-Biosciences/AlphaFold3 Show HN: An open-source implementation of AlphaFold3 | Hacker News https://news.ycombinator.com/item?id=41448439 AlphaFold 3は分子同士の何百万もの組み合わせにより成り立つ生命の構造と相互作用を予測するAIモデルで、医薬品開発や

                                    タンパク質構造予測AIモデル「AlphaFold3」のオープンソース実装がついに公開される
                                  • Elasticsearchが再びOSSに ―ライセンスにAGPLを追加 | gihyo.jp

                                    Elasticは2024年8月30日、今後数週間以内に同社が開発するサーチエンジンElasticsearch、および可視化ツールKibanaのライセンスにAGPL(GNU Affero General Public License)を追加することを発表した。 Elasticsearch is Open Source, Again | Elastic Blog "Being able to call Elasticsearch and Kibana Open Source again is pure joy." — Shay Banon, Elastic Founder and CTO. Read more from @kimchy: https://t.co/PWgXVqyr8M#Elasticsearch — Elastic (@elastic) August 29, 2024 Elas

                                      Elasticsearchが再びOSSに ―ライセンスにAGPLを追加 | gihyo.jp
                                    • 攻撃者が積極的に悪用している脆弱性とは? Palo Alto Networksが年次レポートを公開

                                      Palo Alto Networksのセキュリティ専門チームである「Unit 42」は2024年8月22日(現地時間)、過去1年間に発生したサイバーセキュリティインシデントに関するデータをまとめた「2024 Incident Response Report」を発表した。 同レポートでは2023年のサイバー攻撃の実態を明らかにしたデータや、組織を守るために取るべき対策のポイントがまとめられている。 攻撃者が積極的に悪用している脆弱性とは? 最新調査で判明 同レポートの主な調査結果は以下の通りだ。 サイバー攻撃で最も多く利用される攻撃経路(攻撃ベクトル)として、ソフトウェアやAPIの脆弱(ぜいじゃく)性が全体の38.6%を占めた。攻撃者は「Apache Log4j」や「Oracle WebLogic Server」などの脆弱性を突くことで、広範な業界に影響を与える大規模な侵入を成功させている

                                        攻撃者が積極的に悪用している脆弱性とは? Palo Alto Networksが年次レポートを公開
                                      • Mistralが初のマルチモーダルAIモデル「Pixtral 12B」リリース、GitHub・Hugging Face・APIサービスプラットフォームLe Chat・Le Platforme経由で利用可能

                                        フランスのAIスタートアップ、Mistralが、テキストだけでなく画像も処理できる自社初のマルチモーダルモデル「Pixtral 12B」を発表しました。 mistral-community/pixtral-12b-240910 · Hugging Face https://huggingface.co/mistral-community/pixtral-12b-240910 「Pixtral 12B」は120億パラメーターのモデルで、テキストと画像を同時に処理できます。これにより画像の説明やオブジェクトの識別、画像関連のクエリへの応答などのタスクが可能になっています。 Apache 2.0ライセンスで公開されている点が特徴。誰でも無料で入手でき、制限なく使用、変更できます。 モデルはMistralが共有したTorrentのマグネットリンクを使ってダウンロードすることができます。 magne

                                          Mistralが初のマルチモーダルAIモデル「Pixtral 12B」リリース、GitHub・Hugging Face・APIサービスプラットフォームLe Chat・Le Platforme経由で利用可能
                                        • How Samsung Cloud optimized Amazon DynamoDB costs | Amazon Web Services

                                          AWS Database Blog How Samsung Cloud optimized Amazon DynamoDB costs This post is co-written with JeongHun Kim from Samsung Electronics. Samsung Cloud is a cloud-based service that provides services such as backup/restore and synchronization, sharing, and device authentication of user data for all Samsung devices, including Galaxy smartphones around the world. This blog post introduces five approac

                                            How Samsung Cloud optimized Amazon DynamoDB costs | Amazon Web Services
                                          • Efficiently processing batched data using parallelization in AWS Lambda | Amazon Web Services

                                            AWS Compute Blog Efficiently processing batched data using parallelization in AWS Lambda This post is written by Anton Aleksandrov, Principal Solutions Architect, AWS Serverless Efficient message processing is crucial when handling large data volumes. By employing batching, distribution, and parallelization techniques, you can optimize the utilization of resources allocated to your AWS Lambda func

                                              Efficiently processing batched data using parallelization in AWS Lambda | Amazon Web Services
                                            • xAI、X上でリアルタイムに情報処理できるLLM「Grok-2」「Grok-2 mini」β版をリリース 性能はGPT-4oに匹敵?

                                              xAIは2024年8月13日(米国時間)、大規模言語モデル(LLM)「Grok-2」のβ版をリリースした。今回のリリースにはGrok-2と「Grok-2 mini」という2つのGrokファミリーが含まれている。両モデルは、X(旧Twitter)上でリリースされており、エンタープライズAPIを通じて両モデルを利用できる。 Grok-2の特徴と性能 関連記事 3140億パラメーターのLLM「Grok-1」をオープンソース化 イーロン・マスク氏設立のxAI xAIは、大規模言語モデル「Grok-1」の基本モデルの重みとネットワークアーキテクチャを、Apache 2.0ライセンスでオープンソースとして公開した。 Meta、次世代オープンLLM「Meta Llama 3」を発表 Metaは、大規模言語モデル「Meta Llama 3」の8Bおよび70Bパラメーターモデルを発表した。 AI動向の年次調

                                                xAI、X上でリアルタイムに情報処理できるLLM「Grok-2」「Grok-2 mini」β版をリリース 性能はGPT-4oに匹敵?
                                              • NetBox のオンプレから Amazon ECS 移植を CDK で実現する - NTT Communications Engineers' Blog

                                                チームの管理情報を溜めていたオンプレ基盤で動く NetBox を Amazon Elastic Container Service へ AWS Cloud Development Kit を用いて移植しました。 今まで NetBox をオンプレで動かしていた際には以下のような運用の難しさがありました。 DB も Docker コンテナによって管理されており、冗長化もなかったため DB コンテナが落ちてしまうとサービス提供できなくなる可能性があった Docker Compose で動かしているので、サービスの作り直しを実施するとそれまでのログが削除される そもそも NetBox を動かしている場所で法定停電があり、定期的に NetBox のサービスがとまっていた NetBox を AWS へともっていくことでオンプレ運用時に発生していた手間を簡素化し、メンテナンス等も一部 AWS にマネージ

                                                  NetBox のオンプレから Amazon ECS 移植を CDK で実現する - NTT Communications Engineers' Blog
                                                • 中間証明書に対する対応が各アプリケーションで異なる話 | さくらのナレッジ

                                                  はじめに 本記事では中間証明書が正しく設定されていないWebサーバーへのリクエスト時に、各アプリケーションがどのような動作をするかについて調査した結果をまとめます。最初に前提知識や調査に至った理由を書き、その後に調査結果を述べます。 前提知識 本記事を読むにあたって簡単なSSL/TLSの基本的な知識が必要です。 サーバー証明書/中間CA証明書/ルート証明書の違いとは? サーバー側ですべき設定 WebサイトをSSL化するためには、サーバー側がサーバー証明書と中間証明書を設定する必要があります。しかし、Webサーバーで中間証明書を設定する場合、Webサーバーソフトによっては中間証明書を設定する項目がない場合があります。例えば"Nginx"には中間証明書を直接指定するディレクティブが用意されていないため、サーバ証明書と中間証明書を結合したものを"ssl_certificate"で指定します。"A

                                                    中間証明書に対する対応が各アプリケーションで異なる話 | さくらのナレッジ
                                                  • ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表 「AWSがフォークに投資し、市場の混乱は解決された」と

                                                    この記事は新野淳一氏のブログ「Publickey」に掲載された「ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと」(2024年8月30日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。 オランダに本社を置くElasticは、ElasticとKibanaのライセンスにオープンソースライセンスであるAGPLを追加すると発表しました。 3年前の2021年、同社はElasticをマネージドサービスとして提供しているAWSを名指しで非難しつつ、ElasticのライセンスをApache License 2.0から、商用サービス化を制限する「Server Side Public License」(SSPL)と「Elastic License」のデュアルライセンスへ変更しました。 それ

                                                      ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表 「AWSがフォークに投資し、市場の混乱は解決された」と
                                                    • Mistral AI、初のマルチモーダルAIモデル「Pixtral」リリース 画像を理解

                                                      仏AI新興企業のMistral AIは9月11日(現地時間)、同社としては初の画像も処理できる生成AIモデル「Pixtral 12B」を発表した。Hugging Face上のリンクからダウンロードできる。サイズは約24GBだ。 Apache 2.0ライセンスでの公開。コンテキストは12万8000トークンで、1024×1024ピクセルの画像を処理できる。OCRと情報抽出に適しているという。 まだ動作するWebデモはないが、Mistralのエンジニア、ソフィア・ヤン氏はXの投稿で、間もなくMistralのチャットbotのLe ChatとAPI提供プラットフォームのLe Plateformeでテストできるようになると予告した。 関連記事 Mistral AI、コーディング用生成AIモデル「Codestral」リリース Microsoftが支援するMistral AIは、同社として初のコーディング

                                                        Mistral AI、初のマルチモーダルAIモデル「Pixtral」リリース 画像を理解
                                                      • ストリーム処理とバッチ処理の比較と運用における注意点|zono

                                                        1. ストリーム処理とバッチ処理の基本概念1.1 バッチ処理とはバッチ処理は、一定期間に蓄積されたデータを一括で処理する方式です。典型的には、1日、1時間、またはそれ以上のスパンでデータを集め、その後一度に処理を行います。 バッチ処理のメリットは、データを一気に処理するためスケーラビリティが高く、リソースの使用効率も比較的高いことです。 また、システムの停止やエラーが起きた際にリカバリーが比較的容易です。しかし、リアルタイム性がないため、即時反応が求められるケースには不向きです。 バッチ処理のメリット: 大量のデータを一括で処理できる。 処理の実行タイミングを自由に調整できる。 システム障害やエラーのリカバリーが容易。 バッチ処理のデメリット: リアルタイム処理ができない。 大量のデータが一度に処理されるため、ピーク時の負荷が高くなる可能性がある。 1.2 ストリーム処理とはストリーム処理

                                                          ストリーム処理とバッチ処理の比較と運用における注意点|zono
                                                        • Large Text Compression Benchmark

                                                           Large Text Compression Benchmark Matt Mahoney Last update: Sept 19, 2024. history This competition ranks lossless data compression programs by the compressed size (including the size of the decompression program) of the first 109 bytes of the XML text dump of the English version of Wikipedia on Mar. 3, 2006. About the test data. The goal of this benchmark is not to find the best overall compress

                                                          • 週刊AWS – 2024/9/2週 | Amazon Web Services

                                                            Amazon Web Services ブログ 週刊AWS – 2024/9/2週 みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も週刊AWSをお届けします。 関東は、秋めいた日も増えたように感じますが皆さんの地域はいかがでしょうか? この時期になるとre:Inventが楽しみな気持ちもありつつ、その前にもいくつかイベントが予定されています。 その一つが10月31日に開催されるAWS AI Dayです。本日からオンサイト参加の登録サイトがオープンしました。 “AWS のテクノロジーで加速する生成 AI のプロダクション活用”について学べる機会ですので、ぜひご活用ください。 2024年10月31日 14:00-18:00 – AWS AI DAY 〜AWS のテクノロジーで加速する生成 AI のプロダクション活用〜 それでは、先週の主なアップデートについて振り返っていきま

                                                              週刊AWS – 2024/9/2週 | Amazon Web Services
                                                            • Secure Node.js Applications from Supply Chain Attacks

                                                              Auth0 Marketplace Discover and enable the integrations you need to solve identity Explore Auth0 Marketplace This isn’t another AI-generated blog post about generic security practices. It contains detailed instructions on protecting Node.js applications from supply-chain attacks and describes best practices for security in any programming language. According to the GitHub report, The state of open

                                                                Secure Node.js Applications from Supply Chain Attacks
                                                              • Linux狙う新しいマルウェア発見、高いステルス性能と永続機能が特徴|Infoseekニュース

                                                                Linux狙う新しいマルウェア発見、高いステルス性能と永続機能が特徴 マイナビニュース / 2024年8月27日 9時31分 リスク管理および保険関連企業のAonはこのほど、「Unveiling sedexp: A Stealthy Linux Malware Exploiting udev Rules」において、新しい永続化手法を用いるLinux向けマルウェア「sedexp」を発見したと伝えた。このマルウェアはudevルールを悪用いて永続性を確保し、メモリを操作して自身を隠蔽するとされる。 ○udevルールの悪用 udevはLinuxのデバイス管理ツールで、「/dev」ディレクトリに生成されるデバイスファイルの動的管理を担う。USBデバイスなどを接続すると、udevは適切なドライバーをロードし、必要なアクションを実行する。 udevは、「udevルール」と呼ばれる設定ファイルに記述された

                                                                  Linux狙う新しいマルウェア発見、高いステルス性能と永続機能が特徴|Infoseekニュース
                                                                • 高速コードエディタ「Zed」に、LLMを利用した支援サービスが追加

                                                                  米Zed Industriesは、同社が提供している高速コードエディタ「Zed」に向けて、大規模言語モデル(LLM)を利用した支援サービス「Zed AI」の提供を8月20日(現地時間)に開始した。Zedは、GNU Affero General Public License、Apache License 2.0、GNU General Public License 3.0で公開しているオープンソースソフトウェア。コードの大部分をRust言語で記述し、画面描画にGPU(Graphics Processing Unit)を利用するなどして、高速動作を実現している。 Zed AIは、米Anthropicが開発したLLM「Claude 3.5 Sonnet」を利用した支援サービス。利用するにはサインインが必要だが、当面の間は料金はかからない。ユーザーの問い合わせに応じて、APIの仕様を答えたり、コー

                                                                    高速コードエディタ「Zed」に、LLMを利用した支援サービスが追加
                                                                  • Flywayのマイグレーションの管理を考えてみる(Spring Bootでのサンプル付き) - CLOVER🍀

                                                                    これは、なにをしたくて書いたもの? Flywayのマイグレーションをどう管理するのがいいのかなと悩んだことがあって、ちょっとまとめておこうかなと。 方針? Gitを使い、ブランチで開発 → マージする、といったフローを組んでいるチーム開発を背景にしています。 こういう感じで考えました。 マイグレーションファイルのバージョンは日付をベースにする 環境ごとにディレクトリを分ける DDL(DCLも?)とデータ(DML)でディレクトリを分ける (気になるなら)Out Of Orderを許可する ちょっとずつ書いていきます。 引用しているFlywayのドキュメントは、Flyway 10.17.2時点の情報で参照しています。 マイグレーションファイルのバージョンは日付をベースにする Flywayのドキュメントで、マイグレーションのページを見るとバージョニングされたマイグレーションファイル名の例で最初に

                                                                      Flywayのマイグレーションの管理を考えてみる(Spring Bootでのサンプル付き) - CLOVER🍀
                                                                    1