タグ

ブックマーク / qiita.com/QUANON (2)

  • なぜ教師あり学習でバリデーションセットとテストセットを分ける必要があるのか? - Qiita

    どうも。最近 Coursera で機械学習のコースを受講している @QUANON です。 概要 教師あり学習のデータセットには、 トレーニングセット (training set) バリデーションセット (validation set) 使用しない場合もある。 テストセット (test set) があります。しかし、バリデーションセットとテストセットの違いが未だによく分からない、あるいは、なぜテストセットだけでなくバリデーションセットも必要なのかがピンと来ていないので、調べてみました。 バリデーションセットの役割 トレーニングセットを使って分類器を訓練した後で、その分類器のハイパーパラメータをチューニングするために使用します。様々なハイパーパラメータについて、同じトレーニングセットを使って訓練した後で、さらに同じバリデーションセットを使ってそのパフォーマンスを計測します。そして、最もパフォー

    なぜ教師あり学習でバリデーションセットとテストセットを分ける必要があるのか? - Qiita
  • Unicode と UTF-8 (とその仲間たち) のざっくりした違い - Qiita

    Unicode とは 文字集合のこと。ひとつひとつの文字に 符号位置 と呼ばれる整数値を付けて管理している。 UTF-8, UTF-16, UTF-32 とは 文字符号化方式 のこと。符号位置の整数値をコンピュータが使用できるようにバイト列に変換する。 エンディアンとは 複数のバイトからなるデータをメモリに記録する際やネットワークで送受信する際などに、バイトを並べる順番のこと。バイトオーダ と呼ぶこともある。ビッグエンディアンでは上位側から、リトルエンディアンでは下位側から並べる。 検証用コード この記事を書くにあたって Python で検証したときのコードです。 In [1]: import unicodedata In [2]: import binascii In [3]: unicodedata.name('') # 名前を調べる Out[3]: 'CJK UNIFIED IDE

    Unicode と UTF-8 (とその仲間たち) のざっくりした違い - Qiita
  • 1