タグ

2024年3月1日のブックマーク (11件)

  • 「Pococha」における配信の話題抽出・カテゴライズの検証 | BLOG - DeNA Engineering

    sh19910711
    sh19910711 2024/03/01
    "Top2Vec: 事前学習済みEmbeddingモデルを用いて文書からトピックを自動的に決定 / 文書群のクラスタ中心からトピックベクトルを決定 + その周辺語彙からトピックを解釈" 2023
  • レコメンドとSEOの海に埋もれた俺達のインターネット

    最近の話題な記事をいくつか見て、自分もなにか書きたくなった。 google検索の劣化して専門家はdiscordに行ってしまいインターネットには屑情報だけになってしまった(https://orangestar2.hatenadiary.com/entry/2024/02/13/174845) 我々の愛したGoogle検索はすでに死んでいる(https://novtan.hatenablog.com/entry/2024/02/15/105259) 脱タムパ的思考論ー「言語化がスゲぇ」が実は全く凄くない理由。(https://note.com/symsonic/n/n2c491800482a) 自分としても、以前にこんな記事を書いていた。このあたりとつながるところを感じ、再考してみようと思った。 インターネットに開き続けていたい(https://yyyank.blogspot.com/2021

    レコメンドとSEOの海に埋もれた俺達のインターネット
    sh19910711
    sh19910711 2024/03/01
    "「なんとなく興味のありそうなコンテンツ」が並ぶ / 知らず知らずに能動性を奪われるように仕向けられている / ブログをなかなか書かなくなるし、知見は内に閉じる / 相対的に上がる本の価値"
  • iPadとScrapboxで楽しく学ぶ資格学習法 〜手書きデジタルノートとネットワーク型ノートツールのすすめ〜 - SIS Lab

    はじめに2023年は情報処理技術者試験「ネットワークスペシャリスト試験」と「データベーススペシャリスト試験」の2つに合格できました。 Scrapbox1を使い始めて数年経ちますが、初めて格的に資格学習へ適用した1年でした。振り返ってみると、Scrapboxのおかげでこの2つの試験に合格できたと言っても過言ではありません。 知識習得が必要な資格試験と、Scrapboxのようなネットワーク型の情報整理ツールとの相性は良いです。これが正解というわけではありませんが、どのようにScrapboxを利用して、Scrapboxの何がよかったのか、どこに価値を感じているのかを1年を振り返りながらまとめてみました。誰かの参考になれば幸いです。 要点・サマリーiPadApple Pencilを使えば手書きなのにデジタルなノートを実現でき、変更容易性、再利用性、検索性が高まる。「手で書かないと覚えられない」

    sh19910711
    sh19910711 2024/03/01
    "知識習得が必要な資格試験と、Scrapboxのようなネットワーク型の情報整理ツールとの相性は良い / 何気なくブラケティングした言葉が意図せず「青リンク」になるときの体験は病みつき" 2023
  • Streamlit Elements を使ってドラッグ・サイズ変更可能なダッシュボードを作ってみた

    この記事は、Retty Advent Calendar 2023、7日目の記事です🎄🎁 (1日遅れての投稿です > <) サマリ streamlit-elementsを使うと、ドラッグ・サイズ変換可能なダッシュボードを作ることができる Streamlitだと、データの集計対象の絞り込み・表示/非表示の出し分けのコントロールも行いやすい 実装した挙動はこんな感じ↓実際の挙動 ※記事の細かい実装内容はhttps://github.com/Igecchi/bq_streamlit/をご参照ください ↓試せるようにしました! ※ダークモードの場合、一部表示崩れがありますmm 📊こちらからアクセス📊 Streamlitとは? Streamlitは、Pythonで実装されたオープンソースのWebアプリケーションのフレームワークです。 このフレームワークを使うことで、フロントエンドの経験がなく

    Streamlit Elements を使ってドラッグ・サイズ変更可能なダッシュボードを作ってみた
    sh19910711
    sh19910711 2024/03/01
    "streamlit-elements: ドラッグ・サイズ変換可能なダッシュボードを作ることができる / 集計対象の絞り込み・表示/非表示の出し分けのコントロールも行いやすい / Snowflake: Streamlitアプリをデプロイできる" 2023
  • PyTorch を使って Transformer による翻訳モデルを実践する - 見習いデータサイエンティストの隠れ家

    DeepLGoogle 翻訳などの翻訳サービスは、既に人間以上の性能になっており、多くの人々が日常的に使用しています。このような翻訳サービスに使われている予測モデルは、BERT や GPT-3 によって近年精度が格段に上がりました。そして、これらのモデルのベースになっているのが、今回実践する Transformer です。 今回は、その Transformer を使って翻訳モデルを作ります。Transformer のアルゴリズムの詳細に関しては触れないので、気になる方は以下の記事をご覧ください。私も参考にさせていただきました。 qiita.com 今回のコードはこちらにあります。大部分は PyTorch の公式HPのトライアルを参考にしているので、原文が気になる方はこちらをご覧ください。 準備 必要なモジュールのインポートとディレクトリの設定 学習に使うデータの取得 データを学習用の

    PyTorch を使って Transformer による翻訳モデルを実践する - 見習いデータサイエンティストの隠れ家
    sh19910711
    sh19910711 2024/03/01
    "出力データも使って学習させるため、何も処理をしなければ答えを知った上で答えを導き出すというチート状態 / ◯文字目以降の出力データがモデルに入力されないようにマスクする" 2021
  • 強化学習(DQN)に Explainable AI のテクニックを応用してみる - めもめも

    Explainable AI とは 学習済みのディープラーニングのモデルをリバースエンジニアリング的に分析して、モデルがどのようなロジックで推論しているのかを明らかにする手法です。特定の決まった技術があるわけではなく、モデルの種類に応じてさまざまなテクニックを組み合わせて実現します。 DQN (Deep Q-Network) とは ニューラルネットワークを強化学習に適用する手法で、「Q-Learning」と呼ばれる強化学習のアルゴリズムとニューラルネットワークを用いた近似表現を組み合わせます。数年前に、ビデオゲームを自動プレイするエージェントで有名なったやつです。 OpenAI Gym とは 強化学習のシミュレーション用プラットフォームで、さまざまなビデオゲームのシミュレーターがライブラリー形式で提供されています。このシミュレーターを用いて、自動プレイエージェントの学習に挑戦することができ

    強化学習(DQN)に Explainable AI のテクニックを応用してみる - めもめも
    sh19910711
    sh19910711 2024/03/01
    "このエージェントは画面のどこを見てプレイしているのか / 学習後のそれぞれのフィルターがどんな情報を抽出しており、それがとるべき行動の予測に本当に役立っているのかを「Explainable AI」的に調べてみよう" 2022
  • 個人開発の速度を測る 島国大和のド畜生

    2023年03月 (1) ・2023年02月 (1) ・2023年01月 (2) ・2022年12月 (1) ・2022年11月 (3) ・2022年10月 (1) ・2022年09月 (1) ・2022年08月 (1) ・2022年07月 (1) ・2022年05月 (2) ・2022年04月 (1) ・2022年03月 (1) ・2022年02月 (1) ・2022年01月 (1) ・2021年10月 (1) ・2021年08月 (1) ・2021年07月 (2) ・2021年05月 (1) ・2021年04月 (1) ・2021年03月 (1) ・2021年02月 (1) ・2021年01月 (1) ・2020年12月 (1) ・2020年11月 (1) ・2020年10月 (1) ・2020年09月 (1) ・2020年08月 (2) ・2020年06月 (2) ・2020年04

    sh19910711
    sh19910711 2024/03/01
    "世の中、「ゲーム作りたい」「いずれ作る」みたいな作る作る詐欺が横行 / ゲームを作りたいと思ったら作ろう / アイデアが有る、とか言っても、作らなければそれは価値がない" 2014
  • 技術書を速読する⚪︎つのメソッド - 愚者の能書き

    そんなもんはない! 以上! という結論が音なのだけれど、これまでの努力を無駄にするのもアレなので、 まとめてみることにした。 0. 理解することが目的 速読にばかり気が行って目的を見失いがち。 速く読むことが目的なのではなく、内容を理解し知識を咀嚼し自身の知恵に昇華させるのが目的である。 1. 黙読せよ 実際に発声することを戒めているのではなく、 目が追っている文字列を脳内で音にするのを止めよ、という教えである。 ただし。 ただし、黙読で意味が拾えるのは、知っている言葉だけである。 知らない言葉は、黙読しようが脳内で復唱しようが実際に発声しようが、意味を知ることは出来ない。 2. 高レベルのはレバレッジ読み、もしくはリファレンスとして読め 先に書いたように、なんでもは知らない、知っているのは知っていることだけである。 もしも今読んでいるが、黙読ですらすら読みこなせるようなら、その

    技術書を速読する⚪︎つのメソッド - 愚者の能書き
    sh19910711
    sh19910711 2024/03/01
    "細かい部分にこだわらない。全部読むと、後から、ああ、あれはこのことだったのか、と思うこともある / 高レベルの本はレバレッジ読み: 結論だけを読んでしまう + 章や節で提示された疑問や用語の答えを探す" 2014
  • 社内勉強会で使用したSimCSEのチュートリアル資料を公開しました - LegalOn Technologies Engineering Blog

    こんにちは、LegalOn Technologies Researchで研究員をしている神田(@kampersanda)です。 弊社では、検索チーム主催でセマンティック検索とベクトル検索に関する社内勉強会を定期的に実施しています。この勉強会では、技術に関心のあるエンジニアが有志で議題を持ち寄り、知識共有を行っています。 その成果のひとつとして、文埋め込み技術であるSimCSEのチュートリアル資料を作成し、以下に公開しました。 github.com この資料はNotebookとして作成されており、SimCSEの学習から評価までの一連の動作を簡単に試して頂くことができます。また、コードの各パートには詳細なコメントや引用を付与しています。 記事では、資料作成の目的や方法などを簡単に紹介します。チュートリアルの内容については、Notebookをご参照ください。 SimCSEの概要 SimCSEは

    社内勉強会で使用したSimCSEのチュートリアル資料を公開しました - LegalOn Technologies Engineering Blog
    sh19910711
    sh19910711 2024/03/01
    "SimCSE: ラベルの無い文集合から文埋め込み + 正例ペアから成る訓練セットを用いて教師あり学習することで、更にその性能を向上 / hppRC/simple-simcse: 学習と評価アルゴリズムの簡潔な実装 + 丁寧な解説コメント" / 2023
  • Non-Euclidean Manifold上での近似最近傍探索(論文紹介) - xiangze's sparse blog

    こんにちは。@xiangze750です。Machine Learning Advent Calendar 2012の13日目の投稿になります。 今回はコンピュータビジョンにおける最近傍探索と幾何学についての論文紹介です。 Fast ANN Methods for Non-Euclidean Manifolds with Applications to Human Activity Analysis in Videos(pdf)という(題名どおり)人間の動作の分類を近似再近傍探索を用いて行うという論文を読んでいたのですが、リーマン幾何などの比較的高度な数学的概念が前提とされ、先行研究も多数あげられていたので内容理解のための個人的な覚え書き,疑問点の整理をかねてその内容をまとめます。 目次 課題、問題点 Locally sensitive Hashing(LSH) Semantic Hashi

    sh19910711
    sh19910711 2024/03/01
    doi:10.1007/978-3-642-15552-9_53 / "特徴点を並べたベクトルやヒストグラムは一般に高次元となるため、近傍探索は困難 (次元の呪い) / いかに効率よく、元の分類の性質を壊さないように低次元に射影、圧縮するか" / 2012
  • 深層モデルの高速化

    深層モデルの様々な高速化方法を紹介したサーベイスライドです。 連絡先: @joisino_ (Twitter) / https://joisino.net/

    深層モデルの高速化
    sh19910711
    sh19910711 2024/03/01
    "量子化は係数を用いることもある(1 float + 多int) / 量子化: メモリ消費量が下がる → バッチサイズを大きくできる / 32bitのモデルはナイーブにFP16やBP16にキャストしても大丈夫なことが多い" 2023