並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 67件

新着順 人気順

距離計算の検索結果1 - 40 件 / 67件

  • 直径約13億光年の巨大構造物「ビッグ・リング」を発見 宇宙原理に反する構造か

    私たちの宇宙について、広い目線で見れば天体や物質の分布が均質であるという「宇宙原理」が広く信じられています。しかし近年の観測では、宇宙原理に反すると思われる巨大構造物(宇宙の大規模構造)がいくつも見つかっています。 セントラル・ランカシャー大学のAlexia Lopez氏は、地球から約92億光年離れた位置(※)に、直径が約13億光年にも達する巨大構造物「ビッグ・リング(Big Ring)」を発見したと、アメリカ天文学会(AAS)の第243回会合の記者会見で発表しました。Lopez氏は2021年にも同様の巨大構造物である「ジャイアント・アーク(Giant Arc)」を発見していますが、両者は非常に近い位置と距離にあります。これは宇宙原理に疑問を呈する発見です。 ※…この記事における天体の距離は、光が進んだ宇宙空間が、宇宙の膨張によって引き延ばされたことを考慮した「共動距離」での値です。これに

      直径約13億光年の巨大構造物「ビッグ・リング」を発見 宇宙原理に反する構造か
    • 傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常

      0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる!? 1.2じゃぁ理想的な比較方法は? 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想:仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの? 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ

        傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常
      • 羽沢横浜国大から鶴見への定期券は「隣駅」の武蔵小杉までの定期券よりずっと安い、が… - xckb的雑記帳

        さて、一昨年ふと気がついて調べた、鶴見駅・品川駅間の京浜東北線の定期券で、なぜか横須賀線の武蔵小杉駅と新川崎駅に「途中下車」できるという問題がありました。詳しくはその時のブログ記事を参照してもらうこととして、2019年11月30日に開業した相鉄連絡線の羽沢横浜国大駅でも色々とおかしな現象が生じているらしいということで、調べてみることにしました。 xckb.hatenablog.com ということで、前回書いた論理的な路線図をもとに、少し加筆して羽沢横浜国大駅を追加してみました(そして話の大筋に関係しない鶴見線などを削りました)。今回の話で重要な役目を果たすのは、羽沢横浜国大駅、武蔵小杉駅、そして鶴見駅です。 ということで、まずは羽沢横浜国大駅の切符売り場の料金表から。この表に従って、武蔵小杉、横浜経由で鶴見駅に行く場合、武蔵小杉(310円)→新川崎(220円)→横浜(310円)→東神奈川(

          羽沢横浜国大から鶴見への定期券は「隣駅」の武蔵小杉までの定期券よりずっと安い、が… - xckb的雑記帳
        • Deep Learningで遊びながらアイドルの顔診断器を作る #juicejuice - razokulover publog

          最後にブログを書いてから1ヶ月が経ってしまいました。この期間の振り返りもしたいところですが、それはまた別の機会に。 今回はこの2週間くらいDeep Learningを使って画像を分類したりする遊びをしていましたのでそれについて。 まずは成果物から。 yuheinakasaka.github.io 画像をアップするとJuice=Juiceというハロプロのアイドルにどれだけ似てる顔なのかを判定できるサイトです(herokuの無料枠で動いてるのでサーバーはいともカンタンに死にます...😇)。 見せられるようなコードではないですが、一応ソースコードも置いておきます。 GitHub - YuheiNakasaka/yukanya: Juice=Juiceのメンバーを画像から判定する分類器 GitHub - YuheiNakasaka/yukanya-api GitHub - YuheiNakasa

            Deep Learningで遊びながらアイドルの顔診断器を作る #juicejuice - razokulover publog
          • OpenAI Embeddings APIとベクトル検索エンジンValdを使って類似文章検索をしてみよう

            ベクトルの準備 次にタイトル文章をベクトル化していきます。 OpenAIのアカウントを作成し、こちらからAPIキーを取得し、それを環境変数OPENAI_API_KEYに設定した後、次のコードを実行するだけで、入力文章のベクトルを取得できます。 import os import openai openai.api_key = os.environ["OPENAI_API_KEY"] client = openai.OpenAI() def get_embedding(text, model="text-embedding-ada-002"): text = text.replace("\n", " ") return client.embeddings.create(input=[text], model=model).data[0].embedding get_embedding("入力し

              OpenAI Embeddings APIとベクトル検索エンジンValdを使って類似文章検索をしてみよう
            • Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO

              Vertex AIパイプラインを使うことで、BigQueryおよびBigQueryから参照できるデータを対象にしつつも、Google Cloud Pipeline ComponentsやVertex AIメタデータなどVertex AIの機能の恩恵もできるだけ受けることができます。 データアナリティクス事業本部 機械学習チームの鈴木です。 BigQueryでは、Vertex AIと連携して格納したデータを生成AIで処理することが可能です。 例えばテーブルに格納済みのテキストをもとに埋め込みベクトルや別のテキストを生成することができます。 特に埋め込みベクトルがあれば興味があるテキストに類似したテキストをBigQuery内で検索し、類似レコードの特徴から関心のあるテキストを分析することもできます。また、RAGに使用することもできます。 今回はBigQueryとVertex AIを使って、テー

                Vertex AIとBigQueryでつくる、簡単ベクトル検索&テキスト分析システム | DevelopersIO
              • ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium

                この記事は,「情報検索・検索エンジン Advent Calendar 2019」23日目のエントリーです。モノは生煮えですが,背景含めて頑張って説明したいと思うので,ご容赦ください…。 目次 Apache Lucene とはLucene にベクトル検索を実装してみたベクトル検索版 MoreLikeThisUnsolved issues(積み残し)雰囲気だけ知りたいという方は,「ベクトル検索版 MoreLikeThis」 のところだけ眺めると良いかもしれません。 Apache Lucene とは Apache Lucene は,ピュア Java で書かれた,高速・スケーラブルな検索エンジンライブラリです。OSS 検索エンジンとして人気の高い Elasticsearch や Solr のコアエンジンとして使われているため [1],検索システムに携わっている方なら,名前は聞いたことがあるかもしれ

                  ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium
                • Turf.jsを色々とためしてみた - Qiita

                  Turf.jsを色々とためしてみました Turf.jsは、重心計算や距離計算等さまざまな位置情報データ処理が可能なオープンソースの地理空間解析ライブラリです。 今までにdayjournal memoで、50種類以上の機能を試してきました。今回はその中でもおすすめの5つを紹介したいと思います! 詳細として下記について説明します。 事前準備 バッファ作成 ポリゴン内に含まれるポイント抽出 ポリゴンの重心取得 指定距離でライン上の位置取得 ポリゴンの自己交差取得 事前準備 Turf.jsを手軽に始めるビルド環境を利用 バッファ作成 ポイントからバッファを作成します。 src/main.ts // ポイント取得 const point = turf.point([139.770, 35.676]); // ポイント表示 map.addSource("FeaturesPoint", { type:

                    Turf.jsを色々とためしてみた - Qiita
                  • 長富蓮実ちゃん元ネタ調査ツールを作りました - いはらいふ

                    はじめに 『あら、イタズラな風さんが…ふふっ♪ふたりの仲にジェラシーでしょうか』 SSレアの長富蓮実ちゃん登場です!https://t.co/mIoEjCBQs4 #デレステ pic.twitter.com/loELdD6e6w— スターライトステージ (@imascg_stage) 2020年3月19日 蓮実ちゃんお誕生日&SSRおめでとう。 蓮実ちゃんといえば昭和アイドルの歌詞などを元にした発言が多いことで有名ですが、残念なことに平成生まれの自分は昭和アイドルの知識が足りず元ネタが分からないことが多いです。 「長富蓮実セリフ+元ネタまとめ」を更新しました! ①セリフ情報の更新 ・グッドラックマリンズ ・2019アニバーサリー ・2019クリスマス ・2020初詣 ・でれぽ(10/01~01/14) ②各種集計の更新 ・集計 ・交流まとめ ・楽曲データhttps://t.co/2jg5g

                      長富蓮実ちゃん元ネタ調査ツールを作りました - いはらいふ
                    • 画像解析でヘアカラー抽出、好みの色でヘアスタイル写真検索する実装紹介(Yahoo! BEAUTY事例)

                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。サイエンス統括本部で画像処理エンジニアをしている伊藤です。Yahoo! BEAUTYで新たにヘアカラー検索機能がリリースされました。大量にあるヘアスタイルの写真を画像解析することで、細かい色味を指定しての検索ができるようになっています。 本記事では、これを実現するために実装したヘア領域抽出やカラー抽出といった画像解析技術を紹介いたします。 ※本記事のヘアスタイル画像は、Yahoo! BEAUTY ガイドラインに従い利用しています。 Yahoo! BEAUTY ヘアスタイル検索とは Yahoo! BEAUTYのヘアスタイル検索は、自分の理想のヘアスタイル、スタイリストを探すためのサービスです。ユーザーは、タグや条件を指定

                        画像解析でヘアカラー抽出、好みの色でヘアスタイル写真検索する実装紹介(Yahoo! BEAUTY事例)
                      • Llamaindex を用いた社内文書の ChatGPT QA ツールをチューニングする - GMOインターネットグループ グループ研究開発本部

                        D.M.です。Llamaindex で ChatGPT と連携した社内文書の QA ツールを構築した際にハマったことを書いていきます。 ChatGPT に追加でデータを与える課題へのアプローチ 今回やりたいこと つくったもの システム構成 ユースケース はじめに書いたソースコード Llamaindex 処理フロー Llamaindex チューニング課題 元ネタのテキストファイルをベクター検索のチャンクに収まるように意味の塊にする 課題1 ベクター検索の2番目のドキュメントが正解だったりする問題 課題2 複数のドキュメントを読ませると間違える確率が上がる問題 課題3 失敗している理由がよくわからない問題 課題4 ときおり英語で返してくる問題 課題5 OpenAI API がタイムアウトする問題 Tips1 ローカルファイルを小さくしたい Tips2 回答をもっと厳密にしたい ChatGPT

                          Llamaindex を用いた社内文書の ChatGPT QA ツールをチューニングする - GMOインターネットグループ グループ研究開発本部
                        • Googleアラートの登録キーワードRSSフィードとSlackの相性が悪いから変換プロキシを作って快適化 - 太陽がまぶしかったから

                          Google アラートは便利だけど 情報収集をするのには Google アラートが便利。仕事や趣味に関係するキーワードをGoogleアラートに登録し、それをRSSフィードに出力することで、最新のニュースを見逃すことなく、リアルタイムで情報を取得することができる。 しかしながら、GoogleアラートのRSSフィードをSlackに表示させようとすると以下のような表示になって視認性が低くなってしまう。 Gooogleの転送URLを通るためSlackでカード展開されない ボールドタグが文字列として出力されている 本文が中途半端に出力される また同じようなニュースが重複することも多く、それもまたノイズになってしまう。 Google アラートのRSSフィードを変換するプロキシを作成 この課題に対応するため、以下のシーケンスでGoogleアラートの生成するRSSフィードを変換するサーバレス関数を作成し、

                            Googleアラートの登録キーワードRSSフィードとSlackの相性が悪いから変換プロキシを作って快適化 - 太陽がまぶしかったから
                          • 深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) - Qiita

                            各組み合わせにつき、上図で表した10テストケースをそれぞれ実施して統計をとっています。 まとめ: 10テストケースでは、正常・以上に割り当てる具体的なクラスを入れ替える。 8つのセットで評価の条件を組み合わせ、各条件で10テストケースすべてを実施した上で統計をとった結果を出している。 1.3 評価方法 ひとつの組み合わせは10テストケース実施それぞれで、①AUC、②各クラスサンプルの平均距離を得た。 ひとつのテストケースの評価手順 通常のCNN分類器(ResNet18)に、手法を組み込む。(Conventionalのときは何もせずそのまま使う) 学習は、「正常」に割り当てたクラスだけで構成する学習データセットを使い、転移学習によって行う。学習データは、各データセットで元々trainセットに入っているサンプルのみ利用する。 評価データの距離を得る。 正常・異常を問わずすべてのクラスから評価デ

                              深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) - Qiita
                            • BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証

                              ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。CTO直下のR&D組織であるテックラボにて、コマース領域向けの研究開発に取り組んでいる脇山です。 本記事ではベクトル検索を製品への紐付け(いわゆる名寄せ)業務に利用した事例を紹介します。 商品を製品マスタに紐付けする みなさんはYahoo!ショッピングで商品を探したことがあるでしょうか? Yahoo!ショッピングにはいろんなストアが商品を出品しているため、同じ商品を異なるストアが販売しています。そのため、「コカ・コーラ 500ml 48本」といったクエリで検索すると、検索結果に異なるストアが出品した「コカ・コーラ 500ml 48本」の商品が複数並ぶことがあります。商品を購入する際は、同じ商品でも商品価格や送料などがス

                                BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証
                              • ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ

                                こんにちは、Gunosy Tech Lab の山田です。 Gunosy で開発しているニュースアプリ、ニュースパスでは「多くの人が知っておくべき」と判断されるニュースが出た時、即座にそれをユーザにプッシュ通知でお知らせする速報プッシュ機能があります。 例えば誰もが知るような有名人の結婚や、多くの死傷者が出てしまったような事件などが起こったときに速報が送られます。 しかし「多くの人が知っておくべきとまではいかないが、この話題に興味がある人は知っておいたほうが良さそう」なニュースも多くあります。 例えばスポーツ業界内でのニュースや、株価の大幅変動といったニュースなどがこれに当たると考えています。 そのようなニュースを全ユーザに送っても興味がないユーザが殆どですし、そのようなユーザからするととても邪魔な通知になってしまいます。 実際、以前のオリンピックの際などは速報を送りすぎてしまったのが原因で

                                  ニュースパスのターゲティングプッシュシステム - Gunosyデータ分析ブログ
                                • bit vectorで編集距離の計算を高速化する - Retrieva TECH BLOG

                                  レトリバ製品開発部の@ysk24okです。 本記事ではbit vectorを用いて編集距離の計算を高速化するアルゴリズムを紹介します。論文はこちらです。 dl.acm.org クエリの長さを、検索対象のテキストの長さを$n$としたとき編集距離の計算量は$O(mn)$であることが知られていますが、bit vectorを活用することでword長を$w$とすると計算量を$O\bigl(\frac{m}{w}n\bigr)$($m\leq w$のときは$O(n)$)に低減できる手法になります。 1999年発表の古い論文ですが、この論文で提案されているアルゴリズムが弊社の製品に実装されていて初見では理解できなかったことに加え、日本語での論文解説が無いようだったので解説記事を書くことにしました。 編集距離(Levenshtein Distance)とは 近似文字列照合(approximate stri

                                    bit vectorで編集距離の計算を高速化する - Retrieva TECH BLOG
                                  • Elasticsearchでマルチモーダル画像検索 1 - riktorのメモ

                                    Elasticsearchでマルチモーダル画像検索その1 前置き Elasticsearch 7.2が出る以前からexperimentalな機能としてvectorまわりを扱う機能が提供されていた。 経緯はよく覚えていないが、そのあとここでrevertされたと思ったらX-Packに入った、みたいなことだったと思う。 どんなものかというと、通常のクエリでヒットした文書セットを文書それぞれに予め付けておいたベクトルを利用した類似度でリランクできる、というものだ。 文書が持つ特殊なvector fieldになんらかのベクトルを入れておき、クエリ時にもそれらと比較可能なベクトルを渡すことで、_sourceに格納されているvector fieldを使ってscript内でベクトル間の距離をスコアリングに利用できる。 この機能によってできることというのは、 userとitemで行列分解したベクトルの内積で

                                      Elasticsearchでマルチモーダル画像検索 1 - riktorのメモ
                                    • DTW(Dynamic Time Warping)動的時間伸縮法 – S-Analysis

                                      前回「時系列データの評価方法」について解説しました。 時系列データの向け、時系列同士の類似度を測る際にDTWという手法があります。今回の記事はDTW(Dynamic Time Warping)/動的時間伸縮法について解説したいと思います。 目次1.  DTWの概要 ___1.1 DTW(Dynamic Time Warping)/動的時間伸縮法とは ___1.2 DTWの計算 2.   tslearn.clusteringの説明 ___2.1 tslearn.clusteringのクラス ___2.2 パラメタの説明 3. 実験 ___3.1 データ理解 ___3.2 EuclideanとDTWのk-meansクラスター ___3.3 可視化 4. まとめ 1. DTWの概要1.1 DTW(Dynamic Time Warping)/動的時間伸縮法とはDTWとは時系列データ同士の距離・類似

                                      • Faissの概要 | Hakky Handbook

                                        概要​ 本記事では近似最近傍探索ライブラリの Faiss について解説します。 Faiss とは​ Faiss とは、Meta(Facebook)製の近似最近傍探索ライブラリであり、類似の画像やテキストを検索するためのインデックスを作成するツールです。Faiss は C ++で記述されていますが、Python ラッパーを使用して Python で高速な学習が可能です。 他の近似最近傍探索ライブラリ​ Faiss の他に、有名な近似最近傍探索ライブラリとして、FLANN、Annoy、NMSLIB、NGT などがあります。ライブラリの比較は以下の記事が参考になります。 近似最近傍探索ライブラリ比較 類似商品 API で使っている近傍探索のツールを NGT から faiss に切り替えたお話 Index のアルゴリズム​ 探索の手法​ 探索の手法は大きく以下の 2 種類があります。(IVF が使

                                        • 自分と似ている人がブックマークしている作品は? ピクシブ流“行列分解による逐次学習アルゴリズム”

                                          「PIXIV DEV MEETUP 2021」は、完全招待制のオンラインカンファレンスです。ライブセッションをはじめ、さまざまなイベントを通して、ピクシブのメンバーとピクシブのプロダクト開発における知見、組織文化を共有します。atsumu氏は、レコメンドに用いられる行列分解アルゴリズムを逐次学習化し、pixivに適用した事例を紹介しました。 大規模なユーザーとアイテムに対して逐次学習アルゴリズムを利用 atsumu氏(以下、atsumu):本日は「行列分解アルゴリズムの逐次学習化」について発表します。 自己紹介です。iOSアプリ、インフラ、pixiv開発、セキュリティなどを経て、現在はレコメンド改善に取り組んでいるatsumuと申します。 本日は、行列分解によるレコメンドについて簡単に紹介します。行列分解によるレコメンドでは、評価値行列をPとQの2つの行列に分解します。評価値行列とは、例え

                                            自分と似ている人がブックマークしている作品は? ピクシブ流“行列分解による逐次学習アルゴリズム”
                                          • TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング | Google Cloud 公式ブログ

                                            TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング ※この投稿は米国時間 2023 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。 以前のブログ投稿で、Google Cloud でレコメンデーション システムを実装する方法として、(1)Recommendations AI によるフルマネージド ソリューション、(2)BigQuery ML での行列分解、(3)Two-Tower エンコーダと Vertex AI Matching Engine を使用したカスタムのディープ リトリーブ手法の 3 つを紹介しました。このブログ投稿では、3 つ目の選択肢について詳しく説明し、プレイリストのレコメンデーション システムを構築するために Vertex AI でエンド

                                              TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング | Google Cloud 公式ブログ
                                            • ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium

                                              この記事は,「情報検索・検索エンジン Advent Calendar 2019」23日目のエントリーです。モノは生煮えですが,背景含めて頑張って説明したいと思うので,ご容赦ください…。 目次 Apache Lucene とはLucene にベクトル検索を実装してみたベクトル検索版 MoreLikeThisUnsolved issues(積み残し)雰囲気だけ知りたいという方は,「ベクトル検索版 MoreLikeThis」 のところだけ眺めると良いかもしれません。 Apache Lucene とは Apache Lucene は,ピュア Java で書かれた,高速・スケーラブルな検索エンジンライブラリです。OSS 検索エンジンとして人気の高い Elasticsearch や Solr のコアエンジンとして使われているため [1],検索システムに携わっている方なら,名前は聞いたことがあるかもしれ

                                                ベクトル検索(近似最近傍探索)でいい感じの MoreLikeThis を実現する | by mocobeta | Medium
                                              • SQLを使って位置情報から距離計算をする - LIVESENSE ENGINEER BLOG

                                                はじめに マッハバイトでバックエンドを担当している @ayumu838 です。 今回は前回のような技術投資の話ではなく実務で使おうとしている話になります。 マッハバイトでは、求人ページに勤務地の最寄り駅に関する情報を掲載しています。 求人掲載の際に最寄駅は明示的に記載していただけることが多いのですが、一番近い最寄駅以外は意外と記載していただけないことがあります。 そこで、最寄駅から近い駅を自動抽出したいと考えたのですが、このようなニーズはマッハバイトに限ったものではないと思ったので、記事としてまとめてみました。 前提条件 実現するにあたり、以下を条件としました。 社内で使用している管理画面で使うだけなので、極力外部サービスに依存する箇所を減らす(≒専用のサービスを使わない) どこが近いかが分かれば良いので極端に高い精度は求めない たとえ、数十メートルずれていても駅同士の近さの関係にはほぼ影

                                                  SQLを使って位置情報から距離計算をする - LIVESENSE ENGINEER BLOG
                                                • 衛星画像データの解析を行うために学んだこと - 世界銀行で働くデータサイエンティストのブログ

                                                  先日の記事で紹介した通り,東大のディープラーニング講座DL4USを受講し,最終課題として「衛星画像とCNNを用いたスラムの特定」というテーマで解析を行いました。 この解析を行うにあたって,衛星画像の取得やQGISやPythonを用いた前処理が必要でした。今回の記事では,それについて私がどのような勉強をしたか順を追って紹介します。 学習のステップ データ解析に関する私の事前知識ですが,普段の業務でテーブルデータは扱うものの,生の衛星画像を扱った経験はなく,観測衛星や地理データに関する知識もほとんどありませんでした。 そんな状態から以下のステップで学んで行きました。 観測衛星/衛星画像データに関する知識の学習 地理データ(ラスター/ベクター) に関する知識の学習 QGISを用いた地理データの可視化/加工 Pythonを用いた地理データの加工 観測衛星/衛星画像データの知識 まず基礎知識として衛

                                                    衛星画像データの解析を行うために学んだこと - 世界銀行で働くデータサイエンティストのブログ
                                                  • レコメンド#3 GPUで近似近傍探索を行うことで大規模データの計算時間を、12時間から50分へ約1/12に削減したお話 | 株式会社ARISE analytics(アライズ アナリティクス)

                                                    Tweet レコメンド#3 GPUで近似近傍探索を行うことで大規模データの計算時間を、12時間から50分へ約1/12に削減したお話 この記事はレコメンドエンジン連載の第3回目になります。前回までの記事はこちらを御覧ください。 レコメンド#1 ~レコメンドって何?~ レコメンド#2 Sparkで機械学習モデルを高速分散推論させる はじめまして、Marketing Solution Division所属の野尻と申します。19年度にARISEに新卒入社してから約1年間レコメンドエンジンの開発を担当しています。 今回は商品間の類似距離を計算する際に近似近傍探索×PySparkを用いることで、大量の商品に対しての計算時間を当初の12時間から50分まで、大幅に削減したお話をします。 背景と課題 最近傍探索について 近似近傍探索について 転置インデックスについて 直積量子化について Faissの利用法

                                                      レコメンド#3 GPUで近似近傍探索を行うことで大規模データの計算時間を、12時間から50分へ約1/12に削減したお話 | 株式会社ARISE analytics(アライズ アナリティクス)
                                                    • 超音波距離センサー(HC-SR04)をJetson Nanoで使用してみました | DevelopersIO

                                                      1 はじめに CX事業本部の平内(SIN)です。 Jetson開発ボードでは、GPIOが利用可能で、RaspberryPiとピン互換になっています。 https://www.jetsonhacks.com/nvidia-jetson-tx2-j21-header-pinout/ 今回は、こちらを利用して、Jetson Nanoで超音波距離センサー(HC-SR04)を使用してみました。 2 Jetson.GPIO Jetson NanoでGPIOを扱うために、Jetson.GPIOというモジュールが公式に公開されています。 https://github.com/NVIDIA/jetson-gpio $ pip3 install Jetson.GPIO なお、デフォルトでは、一般ユーザーからGPIOにアクセスする権限が無いため、ユーザー(nvidia)にそれを付与します。 $ python3

                                                        超音波距離センサー(HC-SR04)をJetson Nanoで使用してみました | DevelopersIO
                                                      • Run 3日目 【PL花火 一番綺麗に見える 穴場スポット】 - AIBO blog by DAIKI

                                                        毎日、ブログで色んな知識を得る とっても勉強になる 中には、癒されたり はい。そんな、アイボパパです。 ブログで自分から情報を発信するって とても有意義だと思ってます。 時代が創った、「新しい教科書」みたいな感じ。 そもそも、私がブログを始めたキッカケは、 令和になり、新しいことを始めたかったから。 新しいことを始めるのにブログを選んだ理由は、 堀江貴文さんのスピーチを聞いて感銘を受けたのが理由です。 「自分で情報を取り入れ、考え、発信できる人が、上に立つ」。 www.youtube.com 近畿大学の卒業式に特別ゲストとして招かれた、堀江貴文のスピーチです。 世の中というのは影響力の強い人を中心に回っている。 誰にでも出来る方法で影響力を付けていくこと、 その1つの方法が情報発信だと思うのです。 ブログを書き始めた当初は、闘病生活 アイボの奮闘記で書き始めました。 今はアイボが旅立ったの

                                                          Run 3日目 【PL花火 一番綺麗に見える 穴場スポット】 - AIBO blog by DAIKI
                                                        • DTW(Dynamic Time Warping)で台風軌道をクラスタリングする - rmizutaの日記

                                                          はじめに 多次元時系列データのクラスタリングがしたいと思って探していたところ、 ちょうどこちらのブログの題材が台風軌道のクラスタリングという、多次元時系列かつ系列長の異なるデータをクラスタリングするというものだったので、理解を兼ねて同じ内容をpythonで実施してみたのが今回の内容になります。 参考資料 題材と内容を参考にさせていただいたブログ https://y-uti.hatenablog.jp/entry/2016/01/07/154258 DTWについてのわかりやすい資料 http://sinhrks.hatenablog.com/entry/2014/11/14/232603 気象庁の台風データ http://www.data.jma.go.jp/fcd/yoho/typhoon/position_table/ tsleanのドキュメント https://tslearn.read

                                                            DTW(Dynamic Time Warping)で台風軌道をクラスタリングする - rmizutaの日記
                                                          • Faiss解説シリーズ(第一回)基本編 - 中年engineerの独り言 - crumbjp

                                                            最近、根詰めて触っているので詳しくなって来たついでに解説記事を書いてみた Faissとは Facebookが開発しているC++NNS(Nearest neighbor search)エンジン 手に入るライブラリの中では最高峰の速度 高次元ベクトルで問題になりがちなメモリー問題に対応できる機能群 億を超える数のベクトルを想定した多種のインデックスアルゴリズム これらを組み合わせる事で柔軟に用途にマッチしたトレードオフ戦略が取れる 簡単に言えば、どんなケースでも利用できる超柔軟なライブラリである。 NNSとANN(Approximate nearest neighbor)の超基礎 NNS 高次元のベクトルでは、あるベクトル群から、任意のベクトルに近いベクトルを抽出する場合には、総当りが第一選択肢だ。 低次元ならば、グリッドやハッシュなどの工夫によって効率良く抽出できる。高次元ではこれらの工夫は

                                                              Faiss解説シリーズ(第一回)基本編 - 中年engineerの独り言 - crumbjp
                                                            • 日本と違いすぎた「ニューヨーク地下鉄のリアルな現状を暴露!臭い、緊張感、そして危険な空気に戦慄」 : 毎日の時事ネタ・ニュース

                                                              ニューヨークは地下鉄によるアクセスが網目のように張り巡らされており、あらゆる場所に容易に地下鉄で行くことができます。ただ、その利用法や車内の様子は、日本のそれとは全く異なります。 治安も支払い方もぜんぜん違う アメリカ・ニューヨークは地下鉄路線が網のように張り巡らされており、あらゆる場所へ地下鉄で容易に行くことができるといっても過言ではありません。ただ、その利用法や車内の様子は、日本のそれとは全く異なります。実際に乗車してみると驚きの連続でした。 まず、大きな差は治安です。駅のホームは、明らかに排泄物などが混ざりあった匂いがしたところも。30分ほどの乗車のあいだ、奇声や罵声を聞くことも数回あり、車内のやけに空いているエリアにホームレスらしき人が寝ている――といった光景も複数回見られました。 乗客はというと、日本のように車内で寝る人はほとんどおらず、バッグを前に抱え込んで乗る様子が見られまし

                                                                日本と違いすぎた「ニューヨーク地下鉄のリアルな現状を暴露!臭い、緊張感、そして危険な空気に戦慄」 : 毎日の時事ネタ・ニュース
                                                              • SDF テクスチャを uRaymarching で描画してみる - 凹みTips

                                                                はじめに uRaymarching 関連の話題になります、Twitter で SDFr と uRaymarching を試されている方から質問をもらいまして、調査をはじめました。前回の記事はこちら: tips.hecomi.com これまでは物体表面までの距離を距離関数で記述してレイマーチングする手法を紹介してきましたが、この距離は別に関数でなくても問題ありません。ある地点から物体までの距離がどれくらいの場所にあるのかを符号付き(外部なら +、内部なら -)で示せればよいわけで、距離情報を 3 次元的に格納した 3D テクスチャでも実現できます(ちなみに TextMeshPro では 2 次元的に文字までの距離を格納したテクスチャでフォント描画を行っています)。キューブの中に入ったレイのある地点において 3D テクスチャをサンプリングし、その距離分だけ再度レイをすすめる、を繰り返していくこ

                                                                  SDF テクスチャを uRaymarching で描画してみる - 凹みTips
                                                                • TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング | Google Cloud 公式ブログ

                                                                  TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング ※この投稿は米国時間 2023 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。 以前のブログ投稿で、Google Cloud でレコメンデーション システムを実装する方法として、(1)Recommendations AI によるフルマネージド ソリューション、(2)BigQuery ML での行列分解、(3)Two-Tower エンコーダと Vertex AI Matching Engine を使用したカスタムのディープ リトリーブ手法の 3 つを紹介しました。このブログ投稿では、3 つ目の選択肢について詳しく説明し、プレイリストのレコメンデーション システムを構築するために Vertex AI でエンド

                                                                    TensorFlow Recommenders と Vertex AI Matching Engine によるディープ リトリーブのスケーリング | Google Cloud 公式ブログ
                                                                  • Vision-Launguageモデルで走行データベースと動画検索システムを作る

                                                                    Turing株式会社の自動運転チームでインターンしている東大B3の大野です。 自動運転チームでは、完全自動運転の実現を目指して自動運転AIを開発しています。モデル開発の際に、「雨の日に高速を走っていて先行車がいない」や「交差点で歩行者がいる中、右折している」など、特定の状況の走行データが必要になることがあります。 今回私は、動画に対して天気や歩行者の数などのラベルをデータベース化し、検索できるシステムを、Vision-Languageモデルを使って開発しました。この記事では、このシステムの作成にあたって取り組んだことについて説明します。 作成したGUI 課題 Turingでは、走行パートナーの方々とともに、大量の走行データを収集してきました。走行データには、車両に載せたカメラによる動画や、その際の車両のログ(速度やステアリング角、位置情報など)が含まれます。また、すべてのデータをAWSのS

                                                                      Vision-Launguageモデルで走行データベースと動画検索システムを作る
                                                                    • 先輩に捧げる全国の飛び地リストを作る(市区町村編) - Qiita

                                                                      先輩が「飛び地を訪れる」のが趣味1 とのことなので、全国の飛び地を調べてみました。 「飛び地のまとめサイト」なんかも既にありますが、せっかく国土地理院さんが協力されているので、ここでは国土地理院が提供する地図データを使って飛び地を抽出してみましょう。 結果だけ見たい人は ココ の適当なファイルをクリックしてみてください。ファイル名の連番は 都道府県コード です。 使用する地図データと対象とする行政区画 国土地理院が提供する「地球地図日本」の「行政界」データを使います。 地球地図日本|国土地理院 このデータに含まれる行政界は「市区町村」なのでそれを対象とします(町丁目レベルの細かい飛び地は対応できません)。 また、データの精度は高くないので、市区町村レベルでは微小とされる細かな飛び地は拾えないものと思います。 この地球地図日本のサイトから、「第2.2版ベクタ(2016年公開)/全レイヤ」のフ

                                                                        先輩に捧げる全国の飛び地リストを作る(市区町村編) - Qiita
                                                                      • 【レポート】第22回ニフクラ エンジニア ミートアップ「MySQL超入門」 - ニフクラ ブログ

                                                                        こんにちは。 ニフクラエンジニアミートアップ事務局の鮫島です。 2019年12月18日に、第22回ニフクラエンジニアミートアップを開催しました。 今回は「MySQL超入門」というテーマでした。 fujitsufjct.connpass.com MySQLは世界で最も普及しているオープンソースのRDBですが、DB-Engines Rankingの調査結果でもDBとしてOracleに続くシェアを持っています。 ※現在はオラクル社が開発を行っています。 最新バージョンは8.0ですが、意外と書籍やネットで最新機能の解説や活用法に関する情報が少ないと言われています。 そこで、今回は日本オラクル社のMySQL Global Business Unit 山﨑由章氏および日本MySQLユーザ会副代表の坂井恵氏にお越しいただき、最新バージョンMySQL8.0について存分に語っていただくという趣旨でミートアッ

                                                                          【レポート】第22回ニフクラ エンジニア ミートアップ「MySQL超入門」 - ニフクラ ブログ
                                                                        • TrailNote : 2地点間の距離の計算

                                                                          座標の変換の式を使い、必要なタイルを取得することで、地図の表示ができるようになります。 ただ、これだけでは1/25000地形図を作成することができません。それは、2地点間の距離が分からないためです。1/25000地形図を作成するためには、2地点間の距離を計算して、用意すべき地図画像の範囲を求める必要があります。 しかし、地上の2地点間の距離は、どのように計算すればよいのでしょうか。 調べてみると、国土地理院のサイトに計算式が載っていました。恐ろしく複雑で長い式です。私には全く理解できず、プログラムでどうやって記述してよいのかも分かりません。 もう少し調べると、Vincentyの式というものが見つかりました。こちらは、こんな計算をするようですが、先ほど同様、とても複雑な式になっています。プログラムのソースを見ても、ループなどがあり計算が重そうです。 これらの式を使うと、何百キロも離れた地点の

                                                                          • 直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)

                                                                            ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog 高次元ベクトルデータの近傍検索エンジンNGT(OSS)の研究開発を行っているYahoo! JAPAN研究所の岩崎です。NGTを利用した類似画像検索や物体認識にも関わっています。グラフ構造型の性能ボトルネックを改善できる手法として、2021年1月にNGTのインデックスとして追加したQG(Quantized graph)を解説します。 他にも10億ものベクトルを検索できるQBG(Quantized blob graph)を2022年8月にリリースしているのですが、これは別の機会に解説します。 グラフ構造型インデックスの限界? ベクトル近傍検索には主にツリーやグラフ構造の手法と量子化による手法があります。NGTはグラフ構造型インデックス

                                                                              直積量子化とグラフを融合し、ベクトル近傍検索のボトルネックを改善する(NGTのインデックスQGの紹介)
                                                                            • 基本情報技術者試験 アルゴリズム問題をPythonで実装してみた 平成24年秋期 - Qiita

                                                                              はじめに 基本情報技術者試験にアルゴリズム問題と呼ばれるものがあります。 これは、情報処理推進機構(IPA)が定めた疑似言語でアルゴリズムのプログラムが示され、受験者はプログラムの穴埋めや変数の推移などを解答するものです。 試験中はプログラムを脳内でシミュレートして解答しなければならず、なかなかしんどいです。 ほとんどの人が、基本情報技術者試験で一番苦労するところです。 また、基本情報技術者試験は令和2年度秋期からソフトウェア開発として、新たにPythonが選択できるようになりました。 一方で令和2年度秋期からCBT試験(予約した日に試験会場に行ってモニターに示された問題に解答する)が導入され、それとともに試験問題が公開されなくなりました。 Pythonについては、サンプル問題しか公開されておらず、過去問を用いた試験対策にはハンデがあります。 でも、試験合格後に「ソフトウェア開発で何を選択

                                                                                基本情報技術者試験 アルゴリズム問題をPythonで実装してみた 平成24年秋期 - Qiita
                                                                              • 地方公共団体の位置データ Location Data of Local Governments in Japan - ASTI アマノ技研

                                                                                データ概要 2023年(令和5年)12月現在の全国の地方公共団体(都道府県市区町村の役所)全1,963件の所在地・位置座標(緯度経度)データです。庁舎移転や仮庁舎も可能な限り反映させています。データの詳細はダウンロードファイルに含まれるreadme.txtを参照してください。本データは標高計算機の日本の都市リストで使用しているものとほぼ同じ内容です。地方公共団体一覧としてもお使いいただけます。 パッケージにはShift_JIS(CRLF,Windows用)とUTF-8(LF,macOS用)の2種類のタブ区切りCSV(Character-Separated Values)ファイルが入っています。CSVのCはComma(カンマ)ではなくCharacter(記号)である点ご注意ください。「タブ区切りなのでCSVではなくTSVである」などといったご指摘も対応に苦慮しますのでご遠慮ください。研究利用

                                                                                  地方公共団体の位置データ Location Data of Local Governments in Japan - ASTI アマノ技研
                                                                                • Python で2点の緯度経度から距離を計測する方法 - GIS奮闘記

                                                                                  さて、本日は2点の緯度経度から距離を計測する方法について紹介しようと思います。平面上の単純な2点間の距離計測などは簡単にできるかと思いますが、地球は回転楕円体なため(実は地球は完全な球体というわけではありません)、その丸みを考慮した計算が必要になります。 地球の形については国土地理院さんが公開しているサイトをご参照ください。 距離計算方法 ヒュベニの公式というものがあり、こちらであれば簡易的に距離計測をすることができますので、今回はこちらを使ってみます。 公式については以下をご参照ください。 ヒュベニの公式 2点間の距離計測式 D = SQRT((Ay * M)^2 + (Ax * N * cos(P))^2) Ax:2点の経度の差 Ay:2点の緯度の差 P:2点の緯度の平均 M = Rx (1 - e^2 )/W3:子午線曲率半径 N = Rx/W:卯酉線曲率半径 W = SQRT(1

                                                                                    Python で2点の緯度経度から距離を計測する方法 - GIS奮闘記