somemoのブックマーク / 2022年4月15日

学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

ホクソエムサポーターの白井です。今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

somemo 2022/04/15

“未知語だった単語、分かち書き　複数単語の和。「議論した」=「議論」+「し」+「た」, ベクトル和 (get_divided_wv) https://github.com/shihono/evaluate_japanese_w2v/blob/ff2f240e7427e54d9a4a1514f41d1cc0b4b222b8/src/ja_tokenizer.py#L58-L75

リンク

検索の評価に関するあれこれ - Re:ゼロから始めるML生活

以前、こちらの書籍を読んでました。情報検索 :検索エンジンの実装と評価森北出版Amazon この中で、検索の評価に関する話がありました。検索の文脈でアルゴリズムを評価したくなるかもしれません。このときの評価の方法がいまいちわかっておらず、いい機会だったので勉強してみたので今回はそのメモです。問題設定ベースライン比較対象問題となるポイントざっくりとした評価に関するイメージ古典的な評価指標 PrecisionとRecall 平均適合率逆数順位幾何平均適合率統計的手法の使用 nDCG 余談 : 2つのnDCG やってみる RankEff 参考文献感想問題設定まずは、ランキングを評価するということについてもう少し考えてみます。ベースラインいま、とある検索窓に検索ワードを入力した結果、下記のような検索結果が得られたとします。この表示された結果に対して、ユーザーは

somemo 2022/04/15

“欲しい情報に到達する労力が少ないほど良い。この前提をもとに、欲しかった情報は1ページ目に表示されるべき、ランキング上位にあれば時間が短縮される。真にほしかった情報を上位に表示されている度合いを評価”

リンク

Debezium

Debezium is an open source distributed platform for change data capture. Start it up, point it at your databases, and your apps can start responding to all of the inserts, updates, and deletes that other apps commit to your databases. Debezium is durable and fast, so your apps can respond quickly and never miss an event, even when things go wrong. Try our tutorial Stream changes from your database

somemo 2022/04/15

Stream changes from your database.

リンク

"Attention is All You Need" は本当か調べる - Re:ゼロから始めるML生活

”Attention is All You Need”というタイトルでTransf ormerの論文が発表されてから随分経ちます。ただ、最近は”大事なのはSelf Attentionじゃない”といった趣旨の論文をちらほら見かけるようになってきていると感じていて、これについて自分用のメモがてらまとめてみようと思います。出発点：Transf ormer Transf ormer Vision Transf ormer (ViT) Attention Attentionを使わなかったモデル MLP-Mixer MetaFormer (PoolFormer) gMLP ConvNeXt Attentionは本当に大事？に関する私見参考文献論文メモ感想出発点：Transf ormer まずはTransf ormerの構造について紹介しないと、Self Attentionが重要かどうか云々についてもわ

somemo 2022/04/15

リンク

numpy.take_along_axis — NumPy v2.1 Manual

somemo 2022/04/15

“np.take_along_axis(a, ai, axis=1)”

リンク

NumPyの配列のスライスの必須テクニックまとめ | HEADBOOST

NumPy配列のスライス(ndarray の slice)とは、スクエアブラケット [] を使って、配列の任意の値を抽出する操作のことを言います。 NumPy配列のスライスには、Pythonのリストやタプルなどのシーケンスのスライスよりも、遥かに豊富なテクニックがあり、様々な操作が可能になっています。一つひとつ、しっかりと理解すればデータエンジニアリングの効率が非常に高まるのですが、初心者にとっては複雑で混乱しやすいものになっているのも事実です。そこで、このページでは、配列のスライスのテクニックを1つずつ丁寧に解説していきます。初心者の方は、まず「1. 1つの要素をスライス」「2. 開始位置・終了位置・間隔を指定してスライス」「6. 配列に対する値の代入」の3つの章を使いこなせるようになることを目指すと良いでしょう。そして実務上、さらに高度なスライスの知識やテクニックが必要な場面が訪れ

somemo 2022/04/15

リンク

https://mobile.twitter.com/hagino3000/status/1276478545099812864

somemo 2022/04/15

“dtype Sparse な列と dence な列が混在している状態で scikit-learn のfitメソッドに渡すと全てdenseにされちゃうから全ての列を dtype Sparse に揃える必要がある”

リンク

dbtで始めるデータパイプライン構築〜入門から実践〜

事業会社においてBIやレポート用の分析を担当しているが以下のような状況に該当する人に向けたデータパイプライン構築の入門のための資料です 🧑🏻‍🦱「BigQuery等のView機能を活用しているが、データの流れを追うのが困難な状態になってしまっている、クエリの実行に時間がかかりBIツールが使いづらい」 👩🏻「専任のデータエンジニアがおらず、前処理をpython等で処理したりするのがリソース調整的に大変」 👱🏻‍♂️「ロードされたデータに重複があったり、過不足があったりしてデータの品質が担保できていない」 🧑🏻‍🦰「Digdagやluigiといったデータ変換ツールの独自の仕様を理解しきれておらず使いこなせていない」 ※現時点ではBigQueryを中心に記事を構成してあります、SnowflakeやAmazon Redshift等の様々な分析基盤でもdbtは対応可能です

somemo 2022/04/15

リンク

BigQueryを使う処理のテストをどう書くか - Qiita

この記事はVOYAGE GROUP エンジニアブログ Advent Calendar 2014の6日目の記事です。こんにちは、VOYAGE GROUPで片手間データサイエンティスト業に従事している@hagino3000です。昨今のBigQueryムーブメントに乗って、分析用のデータをBigQueryに投入しはじめた方も多いと思います。しかし、BigQueryを使い出すと、集計バッチ等のテストコードがローカル環境で完結しなくなり、BigQueryそのものを参照したくなります。本記事ではいくつかのアプローチを紹介します。サンプルコードはPython + nose + BigQuery-Pythonを使っています。何が問題か何故テストコードで悩むかというと、BigQueryは次の2つの特徴を持つから。ローカル環境が作れない少量のデータでもクエリに5秒程度かかる特にクエリに時間がか

somemo 2022/04/15

“Python製であるbqコマンドのテストコードがどうなっているか見てみる。 bq query xxx でクエリを発行できるので、そういったテストがあっても良いはず。クエリを実行するテストは無い。(´･ω･`)”

リンク

DynamoDB local (ダウンロード可能バージョン) のセットアップ - Amazon DynamoDB

ダウンロード可能なバージョンの Amazon DynamoDB では、DynamoDB ウェブサービスにアクセスせずに、アプリケーションを開発してテストすることができます。代わりに、データベースはコンピュータ上で自己完結型となります。アプリケーションを本番稼働環境にデプロイする準備ができたら、コード内のローカルエンドポイントを削除します。その後、これは DynamoDB ウェブサービスを指します。このローカルバージョンを使用することで、スループットやデータストレージ、データ転送料金を節約しやすくなります。また、アプリケーションを開発している間インターネットに接続しておく必要はありません。 DynamoDB local は、ダウンロード (JRE が必要)、Apache Maven 依存関係、または Docker イメージとして使用できます。 Amazon DynamoDB ウェブサービス

somemo 2022/04/15

リンク

Sparse data structures — pandas 2.2.2 documentation

somemo 2022/04/15

“SparseSeries and SparseDataFrame were removed in pandas 1.0.0.” df = pd.DataFrame.sparse.from_spmatrix(mat, columns=['A', 'B', 'C'])

リンク

はてなブックマーク

タグ

2022年4月15日のブックマーク (11件)

学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

検索の評価に関するあれこれ - Re:ゼロから始めるML生活

Debezium

"Attention is All You Need" は本当か調べる - Re:ゼロから始めるML生活

numpy.take_along_axis — NumPy v2.1 Manual

NumPyの配列のスライスの必須テクニックまとめ | HEADBOOST

https://mobile.twitter.com/hagino3000/status/1276478545099812864

dbtで始めるデータパイプライン構築〜入門から実践〜

BigQueryを使う処理のテストをどう書くか - Qiita

DynamoDB local (ダウンロード可能バージョン) のセットアップ - Amazon DynamoDB

Sparse data structures — pandas 2.2.2 documentation

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス