タグ

2021年6月26日のブックマーク (10件)

  • 4-bit PQの解説

    はじめに 4-bit Product Quantization (4-bit PQ)は、2021年現在最も高速な近似最近傍探索アルゴリズムの1つです。 この度、Fixstars社と共同で、faissライブラリにおける4-bit PQのARM上での高速実装を達成し、faiss家にマージされました。 記事では、4-bit PQについて解説します。 関連issue。マージされたPR。faiss 1.7.1以降で使えます。 Fixstars社の今泉さんによる、ARM実装の技術詳細。ARMに関する詳細はこちらをご覧ください。記事では4-bit PQアルゴリズムそのものについて解説します。 4-bit PQは、PQという手法を近似し、SIMDレジスタによる恩恵を最大限に受けられるようにした方式です。以下では簡単のためVector Quantization (VQ)を対象とした、4-bit VQに

    sh19910711
    sh19910711 2021/06/26
    "2010年代後半の近似最近傍探索は、HNSWをはじめとしたグラフベースの方式が盛り上がりを見せていた / 最高速度が必要な場合は4-bit PQという選択肢が登場 / Fabien Andréらによって考案"
  • 医療分野の大規模テキストデータで学習した分散表現から、疾患の類似度を求める

    概要 人間が記述した文章から特定の意味や関係性を抽出する行為は情報抽出と呼ばれ、自然言語処理におけるタスクの一つです。人間により収集された情報はオントロジーや知識グラフのような関係性を持つ構造として表現することで、抽出した概念の関係性を理解してきました。こうした知識の構築は、言語の文法構造を利用しルールベースで半自動で抽出する方法が広く用いられていますが、近年では単語の意味的な情報を活用し自動獲得する方法が出てきました。 私は最近Ubieという医療の問診AIを開発している会社にジョインしたのですが、医療自然言語処理の世界でもこうした情報抽出の研究が行われています。そうした特定のドメインでの自然言語処理ではデータやタスクにユニークなものが多く、そうした分野間の違いが現れるところが自然言語処理の面白いところです。 そこでこの記事では、ウェブから収集した医療分野における大規模テキストデータから、

    医療分野の大規模テキストデータで学習した分散表現から、疾患の類似度を求める
  • 焼きなまし法の適用メモ - Negative/Positive Thinking

    はじめに 焼きなまし法について、問題へ適用する際のメモ。 焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ 現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント 以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y

    焼きなまし法の適用メモ - Negative/Positive Thinking
    sh19910711
    sh19910711 2021/06/26
    "近接最適性原理 > 「良い解同士は何らかの類似構造を持っている」という経験的な原理 > この原理が成り立つような解の偏りがあるならば、この類似構造を活用して効率的に最適解を探索できる可能性がある"
  • GitHub - mlcraft-io/mlcraft: Synmetrix – open source semantic layer / Boost your LLM precision

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - mlcraft-io/mlcraft: Synmetrix – open source semantic layer / Boost your LLM precision
    sh19910711
    sh19910711 2021/06/26
    Cube.jsを使っていてLookMLみたいにJavaScriptでモデルを定義できるっぽい / "low-code business intelligence tool and a data science workflow, open-source Looker alternative"
  • グラフ分割問題 をD-Wave 2000Qで解く(実践編) - T-QARD Harbor

    T-Wave開設以来、いくつかの先行研究や導入事例に関する記事が出ている中で、どのように具体的な問題をD-Waveマシンで解くのかということは皆さん気になっていると思います。記事では グラフ分割問題 を例に、サポートツールであるqbsolvを用いてD-Waveマシンに解かせる過程を示します。 問題を解く過程の概略 一般的にqbsolvを用いてD-Waveマシンで、組合せ最適化を行う際に必要となるステップは以下の通りです。 Step 1. 問題のQUBO表現の確認(二値変数の意味、ハミルトニアンなど) Step 2. QUBO行列$Q_{ij}$の要素の計算 Step 3. quboファイルの生成 Step 4. qbsolvコマンドの実行と結果の解釈 Step 1. グラフ分割問題のハミルトニアンの確認 グラフ中のノードを2つのグループに分割(最小カット)する場合には、あるノードが所属す

    グラフ分割問題 をD-Wave 2000Qで解く(実践編) - T-QARD Harbor
  • https://ubiteku.oinker.me/2016/03/22/tdd%E5%86%8D%E8%80%83-8-%E5%87%9D%E9%9B%86%E6%80%A7%EF%BC%88cohesion%EF%BC%89%E3%81%A8%E3%81%AF%E4%BD%95%E3%81%AA%E3%81%AE%E3%81%8B%EF%BC%9F/

    https://ubiteku.oinker.me/2016/03/22/tdd%E5%86%8D%E8%80%83-8-%E5%87%9D%E9%9B%86%E6%80%A7%EF%BC%88cohesion%EF%BC%89%E3%81%A8%E3%81%AF%E4%BD%95%E3%81%AA%E3%81%AE%E3%81%8B%EF%BC%9F/
    sh19910711
    sh19910711 2021/06/26
    2016 / “TDDを実践しようとすると、各層を単独でテスト出来るようにするために間接層やモックオブジェクトを導入する必要が出てくる / 結果としてコードを複雑にし、メンテナンスを難しくするというのがDHH氏の指摘”
  • Logical Decodingを使ったCDC(Change Data Capture)の実現方法を考えてみる

    今年も風物詩である PostgreSQL Advent Calendar の時期がやって参りました。Day1担当のデータマエショリスト @snaga です。 PostgreSQL Advent Calendar 2016 - Qiita http://qiita.com/advent-calendar/2016/postgresql 去年もDay1を担当した気がしますが、それはさておき。 余談ですが、今年のAdvent Calendarは [学生さん・初心者さん大歓迎!]Xamarin Advent Calendar 2016 - Qiita http://qiita.com/advent-calendar/2016/xamarin-welcome にも参加しております。また、 C# チュートリアル 全部俺 Advent Calendar 2016 - Qiita http://qiita

    Logical Decodingを使ったCDC(Change Data Capture)の実現方法を考えてみる
    sh19910711
    sh19910711 2021/06/26
    Logical Decoding / "PostgreSQL 9.4で導入 / テーブルへの変更が論理的なレコードの形式で取得できる / 主キーを指定しない更新であってもログに主キーが出力 / カラムを絞りたいといった場合には別のしくみが必要"
  • ソシャゲの生存率 - 驚異のアニヲタ社会復帰の予備

    こんな記事を観測した。 【悲報】ソシャゲの「10年生存率」、ほぼ0と判明する | やらおん! こんな面白い解析ネタがあったのに乗り遅れた。 しかし、図の生存曲線がどのように作られたかが謎である。カプランマイヤーなのだろうか。 しかも、10年で「ほぼ」0%というが、サービス終了が決まったデータだけ引っ張ってきているのではないのだろうか、と思ったのでデータを集めてきたわけだが、これが意外と稼働中もしくはサービス終了したソシャゲのwikiやデータベースがなかったのでいろいろネットサーフィンした結果を集めてみた。 サービス終了したソシャゲまとめWIKI スマホゲーム一覧 - スマホゲーム(サービス終了)一覧 【2020年】サービス終了(予定)のスマホゲームアプリ一覧 - 超絶ゲームアプリ サービス開始日と終了日が年月日単位で確実に記載されているものを対象とした。また、現在稼働中のソシャゲはよくわか

    ソシャゲの生存率 - 驚異のアニヲタ社会復帰の予備
    sh19910711
    sh19910711 2021/06/26
    "現在稼働中のソシャゲ512、サービス終了したソシャゲ1230を対象にすると、50%生存日数は742日(2.04年) / 10年生存率は3.09%(95% CI 1.49-4.68) となり、ほぼ0というのは少し誇張な感じがするが、でも稀ではある"
  • 論理プログラミング言語Logicaでデータサイエンス100本ノック

    Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。 論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応 モジュール機構がある: SQLと比較した強み コンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。 コードの見た目は関係論理の記述に似ている。 事前に、データサイエンス100ノックのテーブルデータをBigQu

    sh19910711
    sh19910711 2021/06/26
    "SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応 / モジュール機構がある: SQLと比較した強み / コンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる"
  • Spark 3 Reduced Our EMR Cost by 40%

    sh19910711
    sh19910711 2021/06/26
    "The previous S3 committers were uploading files in a temporary location in S3 and then renaming them to their final destination / new S3A committers reduced our S3 write time from minutes to seconds"