タグ

ブックマーク / takeda25.hatenablog.jp (6)

  • Googleのヒット件数は当てにならない - アスペ日記

    (2013/11/08: 補足を書きました。Googleのヒット件数について(続き)) 「Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。 当てにならないことぐらいわかってるよ、と。 でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。 結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。 しかし、実際はそんなレベルでの話ではありません。 「当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。 たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。 267,000件。 多いですね。 ここで、10ページ目をクリックすると、次のようになります。 「59 件中 6 ページ目」*1 一気に4桁も減ってしまいました。 どちらが当の数字

    Googleのヒット件数は当てにならない - アスペ日記
  • いつからその方法で偏りのない乱数が得られると錯覚していた? - アスペ日記

    私はつい最近まで勘違いしていました。 ここのページに書いてあるような方法で、一様分布する整数が得られると。 int random(int n) { return (int)(( rand() / (RAND_MAX + 1.0) ) * n); } この方法、一見すると実に一様分布が得られそうに見えるんですよね。 どういう思考回路を通っているかというのを自己分析すると、次のような感じです。 1. rand() では 0〜RAND_MAX のランダムな整数が得られる。 2. それを RAND_MAX + 1 で割ると、[0, 1) に一様分布する実数が得られる。 3. [0, 1) の一様な実数を n 倍して小数点以下を切り捨てたら、0 から n-1 に一様分布する整数が得られる。 これの罠なところは、1 と(特に)3 が正しいというところだと思います。 ただ、2 がダウト。 思いっきりダウ

    いつからその方法で偏りのない乱数が得られると錯覚していた? - アスペ日記
  • 身の振り方を考えるついでに、日本語について考えた - アスペ日記

    Google を辞めてから、頭を冷やすためにゆっくり休んで、その間にいろいろ考えた。 辞めた時に勢いで書いた記事には「IME の会社を受けてみたい」と書いたけれど、それでいいのか確信もなかった。 だって、IME の会社というと、某国産 IME *1を作っている*2徳島の会社ってことになるんだけど、はっきり言うと…斜陽の匂いがするっていうか…。 一方で、ネットの日語表記に対する違和感のようなものが、だんだんと自分の中でふくらんでいた。やたらと漢字が増えててムカツク…。 自分で N-gram かな漢字・漢字かな変換のような実験的なものは書いてみたけど、頑張って IME にしたところで ATOK ほどの使い勝手にならないのはわかってるし…。 頭の中で、こうしたゴチャゴチャした思いが渦巻いていた。こういう時に行動を起こしても、いい結果にならない。Google に行ってしまったのは不幸なミスマッチ

    身の振り方を考えるついでに、日本語について考えた - アスペ日記
  • 日本語入力について - アスペ日記

    私が日本語入力について思っていることを書いてみる。 自分としては、デフォルト以外の日本語入力システムとして、ATOKGoogle 日本語入力ぐらい(まあ、Baidu IME とかもあるが)しかないのが心の底から残念でたまらない。 雑誌の特集などで、Google 日本語入力ATOK に単語や文章を変換させて精度を比較しているものを見かける。まあ総合的には同じぐらいの結果になっている。だが、実際に長い間使っているとわかるのだが、Google 日本語入力の間違え方のほうが「理不尽」なのだ。どうしてこれがこうなる? と思わず言いたくなるような。その点、ATOK は弱い部分が前もってわかる。アニメやゲームなど、マニアックな変換には弱い。しかし、ATOK である程度日語の文章を打ち慣れた人にとっては、そういう「難しいだろうな」と思うようなところは、打つ前からそのことがわかるものだ。 ATO

    日本語入力について - アスペ日記
  • Google 辞めました - アスペ日記

    Google辞めました。 最終出社日は 5月11日。 5月31日まで有給消化。 その後は無職。 転職先が決まっていて有給消化している「なんちゃって無職」ではなく、ガチ無職。 とりあえずハロワでも行こうと思う。 まず初めに。 この記事は、Twitter で @takeda25 をフォローしてくれている人たちが想定読者だ。 また、これは相当長くなると思う。さらに、中ではたとえ話を使うので、読んでもさっぱりピンと来ないかもしれない。 だから、長い文章を読んで「読んで時間を無駄にした」と思うタイプの人は、ここで読むのをやめてほしい。 もう一つ。 この記事を書いた人間(真鍋宏史)は無名の一社員で、ろくに業績もない。 そういう人間が何かを言っても聞く価値はないと思うなら、やはり読むのをやめてほしい。 この記事では、自分のいた場所に対してネガティブなことも書くと思う。 そのため、なぜそういう行動を取るか

    Google 辞めました - アスペ日記
  • 情報系修士にもわかるダブル配列 - アスペ日記

    最近話題の「日本語入力を支える技術」を途中まで読んだ。 3章がものすごく気合いが入っている。 trie(トライ)というデータ構造の2つの実装、「ダブル配列」と「LOUDS」について詳しく説明がされている。 ダブル配列については、ぼくは以前論文を読んで勉強しようとしたのだが、その時は難しくてあきらめた覚えがある。しかし、このの説明を読むことで理解ができた。 ありがたい。 感銘を受けたので、このを教材に友達と2人勉強会をした。 この2人勉強会というのは、ぼくが復習を兼ねて友達に教えるというのがだいたいのスタイル。 しかし、いざやってみるといろいろと難しい。 次のようなところでひっかかるようだ。 例のサイズが小さく、イメージを喚起するのが難しい。 最初の図のノード番号と、最終的なダブル配列上の位置が異なるため、混乱する。 単語終端について言及がないので、どのノードが単語を表しているかがわから

    情報系修士にもわかるダブル配列 - アスペ日記
  • 1