はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」
昨日の記事で得られた東方キャラ同士の関連性の強さ(NPMI)を使って、Isomapという手法でキャラを二次元上に配置して可視化します 東方キャラの関連性の強さをニコニコ動画の動画数で測ってみた - 唯物是真 @Scaled_Wurm Isomapの概要 Isomapは非線形次元削減、あるいは多様体学習の手法の一つです Isomap - Wikipedia, the free encyclopedia 非線形次元削減では、与えられたデータの元の次元数での情報をできるだけ失わないように、より低次元に埋め込みます 多くの手法では元のデータでの近傍(近いデータ点)や距離を保存するような埋め込みを行います 最近流行りのニューラルネットワークも内部では非線形次元削減的なことをしていて、単語を密なベクトルに変換するword2vecなどは、単語同士の意味の足し算引き算がうまくいくことがあっておもしろいです
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く