shiba_yu36のブックマーク / 2017年4月19日

MySQL with InnoDB のインデックスの基礎知識とありがちな間違い - クックパッド開発者ブログ

こんにちは、サービス開発部の荒引 (@a_bicky) です。突然ですが、RDBMS の既存のテーブルを見てみたら「何でこんなにインデックスだらけなの？」みたいな経験はありませんか？不要なインデックスは容量を圧迫したり、挿入が遅くなったりと良いことがありません。そんなわけで、今回はレコードを検索するために必要なインデックスの基礎知識と、よく見かける不適切なインデックスについて解説します。クックパッドでは Rails のデータベースとして主に MySQL 5.6、MySQL のストレージエンジンとして主に InnoDB を使っているので、MySQL 5.6 の InnoDB について解説します。 InnoDB のインデックスに関する基礎知識インデックスの構造 (B+ 木) InnoDB では B+ 木が使われています。B+ 木は次のような特徴を持った木構造です。次数を b とすると、

shiba_yu36 2017/04/19

リンク

タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

ポエムを適当に書きます。2本立て。週末のノリなので、適当です。 Sentencepieceの紹介記事を読んだ文書分類でneologdとmecabを比較したまとめ Sentencepieceの紹介記事を読んだニューラル言語処理向けトークナイザのSentencepieceについて書かれた紹介記事を読みました。自分用の要約するとニューラル言語処理では語彙数が大きくなると扱いにくい単語をサブワードに分割できるものは分割して、語彙数を制限する(数千から数万)方法がよく使われる尤度を最大にするエントロピー圧縮の一部と見なせるスペースもメタ文字に置き換えて生文を食わせることにより、detokenizeが言語によらず簡単になる翻訳等のタスクで助かる! こういうのが必要なくなる単語分割されたものからさらに分割するわけではなく、生文からやるために計算量オーダーの削減が行なわれている従来の

shiba_yu36 2017/04/19

リンク

SoftwareDesignの連載をはじめました。 - そーだいなるらくがき帳

タイトルそのままにSoftwareDesignの連載をはじめました。 gihyo.jp RDBアンチパターンと題してRDBの設計についてお話していきます。なかなか胸に刺さる話となってますので今後の内容にもご期待ください！！ pic.twitter.com/ShKeGy4M1S— a-know (@a_know) 2017年4月18日寂しかったのでブログ書きました。現場からは以上です。

shiba_yu36 2017/04/19

リンク

はてなブックマーク

タグ

2017年4月19日のブックマーク (3件)

MySQL with InnoDB のインデックスの基礎知識とありがちな間違い - クックパッド開発者ブログ

タスクに合わせたトークナイザ、単語分割に関連したポエム - yasuhisa's blog

SoftwareDesignの連載をはじめました。 - そーだいなるらくがき帳

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス