タグ

2022年4月15日のブックマーク (11件)

  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日語の word2vec に着目し、日語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

    学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
    somemo
    somemo 2022/04/15
    “未知語だった単語、分かち書き 複数単語の和。 「議論した」=「議論」+「し」+「た」, ベクトル和 (get_divided_wv) https://github.com/shihono/evaluate_japanese_w2v/blob/ff2f240e7427e54d9a4a1514f41d1cc0b4b222b8/src/ja_tokenizer.py#L58-L75
  • 検索の評価に関するあれこれ - Re:ゼロから始めるML生活

    以前、こちらの書籍を読んでました。 情報検索 :検索エンジンの実装と評価 森北出版Amazon この中で、検索の評価に関する話がありました。 検索の文脈でアルゴリズムを評価したくなるかもしれません。 このときの評価の方法がいまいちわかっておらず、いい機会だったので勉強してみたので今回はそのメモです。 問題設定 ベースライン 比較対象 問題となるポイント ざっくりとした評価に関するイメージ 古典的な評価指標 PrecisionとRecall 平均適合率 逆数順位 幾何平均適合率 統計的手法の使用 nDCG 余談 : 2つのnDCG やってみる RankEff 参考文献 感想 問題設定 まずは、ランキングを評価するということについてもう少し考えてみます。 ベースライン いま、とある検索窓に検索ワードを入力した結果、下記のような検索結果が得られたとします。 この表示された結果に対して、ユーザーは

    検索の評価に関するあれこれ - Re:ゼロから始めるML生活
    somemo
    somemo 2022/04/15
    “欲しい情報に到達する労力が少ないほど良い。この前提をもとに、欲しかった情報は1ページ目に表示されるべき、ランキング上位にあれば時間が短縮される。 真にほしかった情報を上位に表示されている度合いを評価”
  • Debezium

    Debezium is an open source distributed platform for change data capture. Start it up, point it at your databases, and your apps can start responding to all of the inserts, updates, and deletes that other apps commit to your databases. Debezium is durable and fast, so your apps can respond quickly and never miss an event, even when things go wrong. Try our tutorial Stream changes from your database

    Debezium
    somemo
    somemo 2022/04/15
    Stream changes from your database.
  • "Attention is All You Need" は本当か調べる - Re:ゼロから始めるML生活

    ”Attention is All You Need”というタイトルでTransformerの論文が発表されてから随分経ちます。 ただ、最近は”大事なのはSelf Attentionじゃない”といった趣旨の論文をちらほら見かけるようになってきていると感じていて、これについて自分用のメモがてらまとめてみようと思います。 出発点:Transformer Transformer Vision Transformer (ViT) Attention Attentionを使わなかったモデル MLP-Mixer MetaFormer (PoolFormer) gMLP ConvNeXt Attentionは当に大事?に関する私見 参考文献 論文メモ 感想 出発点:Transformer まずはTransformerの構造について紹介しないと、Self Attentionが重要かどうか云々についてもわ

    "Attention is All You Need" は本当か調べる - Re:ゼロから始めるML生活
    somemo
    somemo 2022/04/15
  • numpy.take_along_axis — NumPy v2.1 Manual

    somemo
    somemo 2022/04/15
    “np.take_along_axis(a, ai, axis=1)”
  • NumPyの配列のスライスの必須テクニックまとめ | HEADBOOST

    NumPy配列のスライス(ndarray の slice)とは、スクエアブラケット [] を使って、配列の任意の値を抽出する操作のことを言います。 NumPy配列のスライスには、Pythonのリストやタプルなどのシーケンスのスライスよりも、遥かに豊富なテクニックがあり、様々な操作が可能になっています。一つひとつ、しっかりと理解すればデータエンジニアリングの効率が非常に高まるのですが、初心者にとっては複雑で混乱しやすいものになっているのも事実です。 そこで、このページでは、配列のスライスのテクニックを1つずつ丁寧に解説していきます。 初心者の方は、まず「1. 1つの要素をスライス」「2. 開始位置・終了位置・間隔を指定してスライス」「6. 配列に対する値の代入」の3つの章を使いこなせるようになることを目指すと良いでしょう。そして実務上、さらに高度なスライスの知識やテクニックが必要な場面が訪れ

    somemo
    somemo 2022/04/15
  • https://mobile.twitter.com/hagino3000/status/1276478545099812864

    somemo
    somemo 2022/04/15
    “dtype Sparse な列と dence な列が混在している状態で scikit-learn のfitメソッドに渡すと全てdenseにされちゃうから全ての列を dtype Sparse に揃える必要がある”
  • dbtで始めるデータパイプライン構築〜入門から実践〜

    事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

    dbtで始めるデータパイプライン構築〜入門から実践〜
    somemo
    somemo 2022/04/15
  • BigQueryを使う処理のテストをどう書くか - Qiita

    この記事はVOYAGE GROUP エンジニアブログ Advent Calendar 2014の6日目の記事です。 こんにちは、VOYAGE GROUPで片手間データサイエンティスト業に従事している@hagino3000です。 昨今のBigQueryムーブメントに乗って、分析用のデータをBigQueryに投入しはじめた方も多いと思います。しかし、BigQueryを使い出すと、集計バッチ等のテストコードがローカル環境で完結しなくなり、BigQueryそのものを参照したくなります。記事ではいくつかのアプローチを紹介します。 サンプルコードはPython + nose + BigQuery-Pythonを使っています。 何が問題か 何故テストコードで悩むかというと、BigQueryは次の2つの特徴を持つから。 ローカル環境が作れない 少量のデータでもクエリに5秒程度かかる 特にクエリに時間がか

    BigQueryを使う処理のテストをどう書くか - Qiita
    somemo
    somemo 2022/04/15
    “Python製であるbqコマンドのテストコードがどうなっているか見てみる。 bq query xxx でクエリを発行できるので、そういったテストがあっても良いはず。 クエリを実行するテストは無い。(´・ω・`)”
  • DynamoDB local (ダウンロード可能バージョン) のセットアップ - Amazon DynamoDB

    ダウンロード可能なバージョンの Amazon DynamoDB では、DynamoDB ウェブサービスにアクセスせずに、アプリケーションを開発してテストすることができます。代わりに、データベースはコンピュータ上で自己完結型となります。アプリケーションを番稼働環境にデプロイする準備ができたら、コード内のローカルエンドポイントを削除します。その後、これは DynamoDB ウェブサービスを指します。 このローカルバージョンを使用することで、スループットやデータストレージ、データ転送料金を節約しやすくなります。また、アプリケーションを開発している間インターネットに接続しておく必要はありません。 DynamoDB local は、ダウンロード (JRE が必要)、Apache Maven 依存関係、または Docker イメージとして使用できます。 Amazon DynamoDB ウェブサービス

    somemo
    somemo 2022/04/15
  • Sparse data structures — pandas 2.2.2 documentation

    somemo
    somemo 2022/04/15
    “SparseSeries and SparseDataFrame were removed in pandas 1.0.0.” df = pd.DataFrame.sparse.from_spmatrix(mat, columns=['A', 'B', 'C'])