タグ

2011年6月16日のブックマーク (11件)

  • バイナリとテキストの本当の違い : 404 Blog Not Found

    2009年04月09日00:15 カテゴリLightweight LanguagesCode バイナリとテキストの当の違い うーむ、Wikipediaですら「見た目」の違いしか説明していない。 バイナリ - Wikipedia コンピュータが扱うすべてのデータはバイナリデータ(バイトの並び)であり、プレーンテキスト(または単にテキスト)もバイナリデータの一種ではあるが、通常バイナリとテキストは対比して用いられる。テキストとはデータの内容すべてを人間が読んで理解できる (human-readable) 表現形式を指し、バイナリとはそうでない表現形式を指すことが多い。 Binary file - Wikipedia, the free encyclopediaA binary file (.bin) is a computer file which may contain any type

    バイナリとテキストの本当の違い : 404 Blog Not Found
  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

  • デバッグより重要なもの : 404 Blog Not Found

    2009年04月02日16:00 カテゴリCodeArt デバッグより重要なもの この話題、すっかり乗り遅れてしまった。 2009-03-22 - 未来のいつか/hyoshiokの日記 プログラミング入門書では、デバッグについて、ほとんど議論されていないし、仮にふれられていても、おざなりな方法というか、かなり邪険にあつかわれていたりする。プログラマの多くの時間がデバッグについやされていたとしてもだ。 あえていわせていただく。コードはデバッグできるだけはるかにましなのだ、と。printfを使うかどうかなんぞ、その問題と比べれば屁ですらないのだと。 デバッグよりもはるかに重要なもの、それはデータ構造の選定。 ここで一歩間違えると、バグが仕様化し、デバッグどころかバグにあわせてプログラムを書かねばならぬ羽目になる。 その最も顕著な例が、Unicodeだろう。最初の設計を間違えたおかげで、最新のソ

    デバッグより重要なもの : 404 Blog Not Found
  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • sakusaku 東京工業大学のうた

    みんなでうた

  • ラピュタには何故自爆コマンドが用意されているのか: 不倒城

    バルスのことなんですけど。 大多数のネットユーザー諸兄はご存知かと思うが、バルスは天空の城ラピュタにおける「滅びの言葉」である。劇中ラストシーンにおいて、家伝の飛行石を手にしたシータとパズーが「バルス!」と叫ぶと、なんか飛行石がやたら光ってムスカさんが目が目が星人になったりラピュタがぶっ壊れたり、色々とエラいことになる。 「バルス=滅びの言葉」という図式の定着度・認知度はWeb上では恐ろしい程であり、ラピュタ放映時には実況板が「バルス!」の書き込みとAAで埋め尽くされるという。 まず考えなくてはいけないのは、このバルスという命令は一体何の為に用意されたAPIなのかということである。 ラピュタは人工物なので、当然設計者や開発者がいた筈である。そして彼らは、管理権限キーっぽい小さな飛行石に、複数のコマンドを用意している。「困った時のおまじない」であるとか、「滅びの言葉」がそれである。飛行石を身

  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • みなとみらいの新「大和研究所」でThinkPadの“拷問”を眺める

    “質実剛健”という言葉がふさわしい「ThinkPad」シリーズの高い信頼性は、IBMの時代から大和研究所が築いてきたものだ。Lenovoの研究開発拠点は、北京、ノースカロライナ、そして日にあるが、このうち最後の大和事業所(神奈川県大和市)は、2011年1月4日に、横浜のみなとみらいセンタービルに移転している。 ただし、新しい研究施設の名は“みなとみらい研究所”ではない。Lenovoのマーケティングでトップの任につくキャサリン・ラグース氏が、同社の高い成長率の要因として「テクノロジーとイノベーションへの投資」を挙げ、「YAMATOラボこそがその証だ」と語るように、ThinkPad開発において大和ブランドは内外に広く認知されており、近代的なみなとみらい21地区にあっても「大和研究所」の名前は引き継がれた。レノボ・ジャパンが実施した新「大和研究所」見学ツアーの模様をリポートしよう。 レノボ・ジ

    みなとみらいの新「大和研究所」でThinkPadの“拷問”を眺める
  • Labolog

    Gitのある暮らし Gitでファイルのバージョン管理をする為の、基的な使い方を説明する。 my-project というディレクトリ(=レポジトリ)をGitで管理してみる。 Gitをインストール # Mac sudo port install curl expat gettext openssl zlib sudo port install git-core # CentOS sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel sudo rpm -ivh http://repo.webtatic.com/yum/centos/5/`uname -i`/webtatic-release-5-1.noarch.rpm sudo yum install --enablerepo=webta

    nhayato
    nhayato 2011/06/16
  • ベイズ階層言語モデルによる 教師なし形態素解析

    NTT daichi@cslab.kecl.ntt.co.jp IPSJ SIGNL 190 2009-3-25 () ? z 99% – – 99% – – z z z – z – – / (Jin, 2006) – MDL ( 2007) etc.. / z – ( 1996(); Goldwater+ 2006) : z n - n – – z NPYLM: Nested Pitman-Yor Language Model – – Byproduct – – HPYLM(n-gram ) : HPYLM n-gram z Kneser-Ney HPYLM [Teh 2006] ÆHPYLM = Kneser-Ney n Pitman-Yor (PY) : PY: HPYLM: z – V z Æ – PY – n-gram=HPYLM z ME () PY : NPYLM: -HPY