タグ

2011年12月6日のブックマーク (5件)

  • 機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS

    Mahoutシリーズを最初から読む場合はこちらApache Mahoutで機械学習してみるべ - 都元ダイスケ IT-PRESS。 さて、前回までで、実際にMahoutのレコメンデーションエンジンを動かしてみつつ、その計算原理を軽く追いかけました。今回は、機械学習全般における大事な前提について。 仮定がいっぱい 通常プログラムを書く場合は、事実や仕様に基づいて、正確にプログラミングすることを求められます。可能性の大小や、大ざっぱな計算などに依存したプログラミングはあまり書く機会がありません。例えばあるソフトで扱う業務で、土日祝日料金と平日料金というものがあったとします。これを「1週間のうち、だいたい5日が平日で2日が休日だよね、祝日とかたまにしかないから、考慮すると大変だし、いいよね、べつに」ってことにはなりません。多分。 しかし、機械学習は違います。気づいていないだけで、実はかなり大きな

    機械学習における重大な"仮定"と、アルゴリズムの評価 - 都元ダイスケ IT-PRESS
    todesking
    todesking 2011/12/06
  • 理不尽との戦い方 - aike’s blog

    社会人として仕事をしていると、いつか必ずどこかで理不尽にぶつかります。それはどんなに優良企業でも大会社でも中小企業でもかたちは違えど多かれ少なかれあると思います。 デスクのまわりの騒音や狭さがまともに働けるような状況になかったり、ありえないスケジュールが設定されたり、ものごとがとても納得できないような決まりかたをしたり、といった話はどこにでもあります。人間関係的なことでいうと、異様に責任の押し付けがうまい上司だとか、まるで子供じみた発想をする同僚、妄想のような策略をめぐらす古参社員など、ドラマや小説でさえ見たこともないような異形の人が世の中にはたくさんいることに気づかされたりします。大学などのつながりで自分でも気づかずに同じようなクラスタの人ばかり見てきた後に、就職した先で世代や文化の異なる人と接するとそのギャップにびっくりします。 自分も過去にそういった理不尽を多く経験してきました。まだ

    理不尽との戦い方 - aike’s blog
    todesking
    todesking 2011/12/06
    「僕ら一般人がアウェイの場所でとるべき戦略は、どんなにかっこわるくてもまずは生き延びることです。場合によれば手にしている物品をいくつか失うこともあるかもしれません。」
  • Unicodeの脳みそ星人はどこからやってきたのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    ねえねえ。これ何に見える? もしかして何かエッチなこと言わそうとしてます? いや、そういうのじゃないから。 宇宙人……でしょうね。 ふーん。宇宙人に見えるかあ。 宇宙人に見えるっていうより、宇宙人とでも言うしかないというか。 うん。これ、U+1F47E ALIEN MONSTERっていうUnicode絵文字の例示字形なんだけどね。ちょっとアレだよね。その元になった携帯キャリアの絵文字は、SoftBankのインベーダーのカニ星人*1。それから、auのタコ星人。 どっちもわかりやすい宇宙人ですよね。それがどうしてこんな不吉な脳みそ星人になっちゃったんですか? 話せば長いんだけどね。 じゃあ、またの機会に……。 ま、座れよ。ケータイの世界には、SoftBankにはアリ星人(「宇宙人」)とカニ星人(「ゲーム」)がいて、auにはタコ星人(「宇宙人」)とUFOがいる。 はい。ありますね、これ。 こいつ

    Unicodeの脳みそ星人はどこからやってきたのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    todesking
    todesking 2011/12/06
    やばい
  • Java/文字コード - BugbearR's Wiki

    Java 文字化け Unicode 4.0 補助文字対応 † J2SE 5 からは内部文字コード(char型)が UCS-2 (完全16ビット)ではなく UTF-16 (サロゲートペアあり)となった。 Java プラットフォームにおける補助文字のサポート http://java.sun.com/developer/technicalArticles/Intl/Supplementary/index_ja.html ↑ char → byte 変換 † Shift_JIS(SJIS), Windows-31J(MS932) の異なる点のみ拾い出している。(一部逆変換の参考のために記載。) NEC拡張漢字、NEC選定IBM拡張漢字は除外。 Shift_JIS, ISO-2022-JP, EUC_JP は内部的には同じ変換表を使っているので割愛。 ここでは文字は UTF-8 で表記している。(U

    todesking
    todesking 2011/12/06
    ウムーー
  • タダ飯よりも素敵なものは - steps to phantasien

    GitHub co-founder の Tom Preston-Werner (以下もじょ先生) が お仕事のコードも大半はオープンソースにしたほうがいい という話を書いている。 (@higepon の tweet で知った。) 同じような主張は、ビジネスとしてのオープンソースが隆盛を極めた 2000 年前後にもみられた。 時は流れ、今はソフトウェアそのものよりはアプリケーションやサービスをウェブ越しに売る時代。 ハイテク企業の前線もコード自身からデータやユーザの時間といったコード以外の部分に少しづつ軸足を移しつつある。 そうした企業は十年前とは異なる文脈でコードをオープンソースにしはじめた… というだいたいの背景を踏まえつつ読むと、もじょ先生の話は感慨深い。 もじょ先生はスタートアップの founder/CTO らしい立場でオープンソースの利点を説いている。 私はスタートアップ勤務でもな

    todesking
    todesking 2011/12/06