samurairodeoのブックマーク - はてなブックマーク

samurairodeo id:samurairodeo

ブックマーク / qiita.com/QUANON (2)

なぜ教師あり学習でバリデーションセットとテストセットを分ける必要があるのか？ - Qiita
どうも。最近 Coursera で機械学習のコースを受講している @QUANON です。概要教師あり学習のデータセットには、トレーニングセット (training set) バリデーションセット (validation set) 使用しない場合もある。テストセット (test set) があります。しかし、バリデーションセットとテストセットの違いが未だによく分からない、あるいは、なぜテストセットだけでなくバリデーションセットも必要なのかがピンと来ていないので、調べてみました。バリデーションセットの役割トレーニングセットを使って分類器を訓練した後で、その分類器のハイパーパラメータをチューニングするために使用します。様々なハイパーパラメータについて、同じトレーニングセットを使って訓練した後で、さらに同じバリデーションセットを使ってそのパフォーマンスを計測します。そして、最もパフォー
samurairodeo 2018/10/12
machine-learning

*あとで読む
リンク
Unicode と UTF-8 (とその仲間たち) のざっくりした違い - Qiita
Unicode とは文字集合のこと。ひとつひとつの文字に符号位置と呼ばれる整数値を付けて管理している。 UTF-8, UTF-16, UTF-32 とは文字符号化方式のこと。符号位置の整数値をコンピュータが使用できるようにバイト列に変換する。エンディアンとは複数のバイトからなるデータをメモリに記録する際やネットワークで送受信する際などに、バイトを並べる順番のこと。バイトオーダと呼ぶこともある。ビッグエンディアンでは上位側から、リトルエンディアンでは下位側から並べる。検証用コードこの記事を書くにあたって Python で検証したときのコードです。 In [1]: import unicodedata In [2]: import binascii In [3]: unicodedata.name('鬱') # 名前を調べる Out[3]: 'CJK UNIFIED IDE
samurairodeo 2017/06/02
あとで読む
リンク
1