タグ

ブックマーク / id.fnshr.info (14)

  • 英語で大きな数を表す|Colorless Green Ideas

    なお、日語の無量大数 (1068) は one hundred unvigintillion に当たる。 事例 こうした数詞を使った例をいくつか見てみよう。 ジンバブエでは21世紀初頭にハイパーインフレが発生し、とても大きな桁数の紙幣が発行された。以下に挙げる紙幣では、「兆」に相当する trillion が用いられている。 one hundred trillion(百兆)ジンバブエドルの紙幣 [2] 。21世紀初頭のハイパーインフレによりこのような高額の紙幣が発行された。 別の例を見てみよう。Cookie Clicker というブラウザゲームでは、ものすごい量のクッキーを作ることができる。1秒ごとに sextillion (十垓)程度のクッキーを作ることなど余裕でできる。なので、このゲームでは以下のようにとんでもない数を表すメッセージが平気で出てくる。 You earned 19.227

    英語で大きな数を表す|Colorless Green Ideas
  • データのクリーニングや組織化について深めたい人のために――『データリテラシー』|Colorless Green Ideas

    『データリテラシー』という書籍は、データ分析の経験がある程度ある人が、データのクリーニングや組織化について見直す際に有用である。 はじめに この記事では、『データリテラシー』というを紹介したいと思う。タイトルからは何のなのか分かりにくいかもしれないが、データのクリーニング (data cleaning) やデータの組織化 (data organization) について見識を深めたい人にとって有用な1冊である。 柴田里程.(2001). 『データリテラシー』東京:共立出版. 版元ウェブサイトでの『データリテラシー』の紹介ページ 増田耕一氏による『データリテラシー』の読書ノート [1] どういう人に向いているか このは、データ分析の経験があまりない人にとっては難しいかもしれない。ただ、データ分析をよくやっている人にとっては、日頃の経験を整理・体系化するのに有用であると思う。要するに、こ

    データのクリーニングや組織化について深めたい人のために――『データリテラシー』|Colorless Green Ideas
  • 中国語での算用数字と漢数字の使い分け|Colorless Green Ideas

    中華人民共和国の国家標準 《出版物上数字用法》に規定されている中国語での算用数字と漢数字の使い分けについて紹介する。 《出版物上数字用法》 中国語は、日語と同様に、数を表す際に0, 1, 2, 3といった算用数字を用いるときと、一・二・三・百・千・万といった漢数字を用いるときがある。 それでは、中国語においては、算用数字と漢数字はどのように使い分けられているのだろうか。正直言って、人によって使い分け方が違うというのが実情であろう。だが、一応使い分けの公的な標準が存在している。 中華人民共和国における国家標準の1つとして、GB/T 15835-2011 《出版物上数字用法》(General rules for writing numerals in public texts) というものがある。これは、中国語の出版物における算用数字と漢数字の用法を規定した標準で、算用数字と漢数字の使い分け

    中国語での算用数字と漢数字の使い分け|Colorless Green Ideas
  • 『ダメな統計学』冊子PDFの公開|Colorless Green Ideas

    『ダメな統計学』表紙 現在の科学研究において統計が誤用されていることが非常に多く、そのために科学研究の信頼性が揺らいでいることを記した『ダメな統計学』の冊子PDFを公開する。これは、アレックス・ラインハート氏が書いたStatistics Done Wrongの全訳である。理解を深めるために、訳注を比較的豊富に加えた。 2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』の冊子PDFに比べると、大幅に加筆されている。ページ数で言うと2倍以上になっている。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 『ダメな統計学

    『ダメな統計学』冊子PDFの公開|Colorless Green Ideas
    nminoru
    nminoru 2016/12/15
  • 性別に中立な英語の敬称表現“Mx”|Colorless Green Ideas

    英語には“Mr”や“Ms”とは別に、性別に中立な敬称表現“Mx”があり、クロスドレッサー(異性装者)のような男性とも女性とも言い切れない人に対して用いられている。“Mx”はイギリスではすでに広く使われており、今後『オックスフォード英語辞典』にも掲載される。 Mx とは 男女を判断する必要がある敬称表現の問題点 性別に中立な表現 [1] 英語には、“Mr”と“Ms”という敬称表現がある [2] 。これは日語の「……さん」や「……様」に相当する表現である。 日語の「……さん」は男性に対しても女性に対しても用いることができる。これに対して、英語では“Mr”は男性にしか使えないし、“Ms”は女性にしか使えない。例えば、“Mr Smith”ならば男性のスミスさんだし、“Ms Smith”なら女性のスミスさんになる。 日語の「……さん」を使うときは、敬称を付ける相手が男性か女性かを判断する必要は

    性別に中立な英語の敬称表現“Mx”|Colorless Green Ideas
  • ワン、ツー、スリーだけでない――英語の様々な数の表現|Colorless Green Ideas

    英語で数を表す表現には、ワン、ツー、スリー……といった数詞を用いるもののほかに、ラテン語や古典ギリシャ語に由来する接頭辞を使うものがある。こうした接頭辞などを使って普通の数詞以外で数を示す事例を紹介する。 はじめに 数を数える表現には様々なものがある [1] 。 英語で数を数えるときは、普通ワン、ツー、スリー……(one, two, three…) という数詞を用いる。しかし、こうした数詞では表現しない場合がある。例えば、「三重奏」のことを英語で何というかご存知だろうか。スリー (three) は使わないで、トリオ (trio) になる。それでは、「六角形」は英語で何というかご存知だろうか。シックス(six) は使わないで、ヘキサゴン (hexagon)になる。このように、英語では、ワン、ツー、スリー……という数詞を用いないで数を表現することが少なくない。 この記事では、ワン、ツー、スリー

    ワン、ツー、スリーだけでない――英語の様々な数の表現|Colorless Green Ideas
    nminoru
    nminoru 2015/04/13
    サイコロの目の数え方は知らんかった。
  • 2014年の「今年の英単語」は #blacklivesmatter に|Colorless Green Ideas

    アメリカ方言学会が「2014年の今年の英単語」として #blacklivesmatter(〜黒人の命が重要だ)というハッシュタグを選んだ。アメリカの黒人差別に抗議する運動が2014年に活発となったためである。 はじめに #blacklivesmatter が2014年の「今年の英単語」に 2015年1月9日、アメリカ方言学会が「2014年の今年の英単語」(Word of the Year) として#blacklivesmatter(#黒人の命が重要だ)というハッシュタグを選んだ [1] 。2014年のアメリカにおいては、警官によって何ら罪のない黒人が殺害されるなど、黒人に対する差別的扱いが社会的に大きな問題となった。そして、こうした差別に対抗するために、#blacklivesmatterというハッシュタグが広く使われた。このことによって、#blacklivesmatterが2014年の今年

    2014年の「今年の英単語」は #blacklivesmatter に|Colorless Green Ideas
    nminoru
    nminoru 2015/02/23
  • 2014年のフランスのバカロレアの哲学の問題|Colorless Green Ideas

    2014年6月14日にフランスで行われたバカロレア(大学入学資格試験)の哲学の試験でどういう問題が出題されたかを紹介。 バカロレアと哲学 この記事では、6月16日に実施された2014年のフランスのバカロレアでの哲学の問題を紹介する。フランスでは、6月に大学入学資格試験であるバカロレア (baccalauréat) が行われる。哲学 (philosophie) はバカロレアで必ず受験しなくてはならない科目である。 フランスにおけるバカロレア (baccalauréat) は、大学への入学資格を得るための国家的な統一試験である。フランスのリセ (lycée) は、日で言うと高等学校に相当するが、そこでは哲学の授業が必須となっている。バカロレア受験の際も文系・理系関係なく哲学を受験しなくてはならない。 哲学の試験は4時間かけて行われる。専攻ごとにそれぞれ異なる問題が出される。各専攻とも3問出題

    nminoru
    nminoru 2014/07/01
    バカロレアの哲学の問題の紹介。
  • 2013年の「今年の英単語」は“because”(〜だから)に|Colorless Green Ideas

    アメリカ方言学会が「2013年の今年の英単語」として because(〜だから)を選んだ。because の後に単なる形容詞や名詞が導かれる新しい用法が評価されたためである。 はじめに because(〜だから)が2013年の「今年の英単語」に 2014年1月3日、アメリカ方言学会が「2013年の今年の英単語」(Word of the Year) として because(〜だから)を選んだ [1] 。because という単語は古くからある単語であるが、形容詞や名詞を導く新しい用法が広く見られるようになったために、今年の英単語として選ばれることとなった。 従来、because は主語・動詞を後ろに伴って節を作る用法か、because of という形式での用法しかなかった。しかし、新しい用法では because の直後に単なる形容詞や名詞が来るようになっている。例えば、「便利だから」という意

    nminoru
    nminoru 2014/02/19
  • ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas

    はじめに 日2013年12月1日は、マンガ『ドラえもん』の原作者である藤子・F・不二雄の80歳の誕生日に当たるそうだ [1] 。 これを記念してというわけではないと思うのだが、11月26日に『2ちゃんねる』に「ドラえもんの特殊顔文字できたwwwwwwwwwww」というスレッド [2] が立った。そのスレッドには、文字だけを使って『ドラえもん』の主要キャラクターの顔が表現されていた。以下に、同スレッドで紹介されていた顔文字を再現したものを掲げる。 ドラえもんの特殊顔文字 こうした顔文字は、アクセント符号などのダイアクリティカルマークをつけることで作られている。どのようなしくみになっているのか以下で詳しく見ていこう。 特殊顔文字のしくみ 従来の顔文字は(-_-)や(^^)のように単純な記号で、単純な図像を表現するのみであった。しかし、近年様々な文字を組み合わせて、より表情豊かな顔文字が作られ

    ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas
  • 文字列の類似度を測る(4) 置換の起こりやすさとDNA|Colorless Green Ideas

    文字列の類似度を測る際に置換という操作を考えるが、この操作の起こりやすさによって類似度を調整する仕組みがある。この仕組みは言語やDNAの分析にも役立つ。 はじめに 前に文字列の類似度を測る手法として編集距離について紹介した。これは、文字の置換などの編集がどれだけ必要かということに基づいて、文字列の類似度を測る手法である。 しかし、置換と言っても、起こりやすい置換とそうでない置換がある。前に紹介した手法では、置換の起こりやすさについて想定してこなかったが、もし想定したとしたらどうなるかということが今回扱いたい内容である。なお、置換の起こりやすさについての話は、DNAの塩基配列の変化のモデルを例とすると分かりやすいので、それを中心に見ていきたいと思う。 起こりやすい置換とそうでない置換 文字列の中の1文字が別の1文字に置き換わることが置換である。編集距離の1つであるレーベンシュタイン距離では、

  • 文字列の類似度を測る(3) レーベンシュタイン距離の拡張|Colorless Green Ideas

    文字列の類似度を測る単純な尺度としてレーベンシュタイン距離というものがあるが、このレーベンシュタイン距離を拡張した様々な指標について見ていく。 はじめに 以前、文字列の類似度を測る手法として、レーベンシュタイン距離というものを紹介した。これは、ある文字列から別の文字列にする際に挿入・削除・置換を何回行うかに基づいて、文字列の類似度を測る尺度であった。レーベンシュタイン距離は簡便な指標であり、実際色々な分野で使われている。ただ、レーベンシュタイン距離だけでは捉えきれない問題もあって、そういう場合は、レーベンシュタイン距離以外の方法で文字列の類似度を測ることになる。 今回は、文字列の類似度を測るための尺度の中でも、レーベンシュタイン距離を拡張したものについて紹介していきたい。特に、Damerau–Levenshtein距離というものと、距離の標準化の話は重要になってくるので、おさえておくと何か

  • 文字列の類似度を測る(2) 発音に着目する|Colorless Green Ideas

    文字列の表面上の形でなく、発音に注目したい場合に、文字列の類似度をどう測るかについて。具体的には、Soundex と Metaphone という手法を紹介する。 はじめに 前回、文字列の類似度を測る手法として、最小編集距離、なかんずくレーベンシュタイン距離について紹介した。この手法は、表層的な形しか見ていないということに注意することが必要である。言語データの場合、基的には綴りだけしか見ていないということになる。英語の場合、綴りと音が大きくかけ離れているので、発音がよく似ていても綴りは似ても似つかないということが起こりうる。この場合、発音はよく似ているのに、距離は大きくなってしまうのである。 綴りに着目したい場合もあるが、発音に着目する必要がある場合も当然ある。このような場合、何らかの手法で発音を見える形にする必要がある。英語では、Soundex や Metaphone といったアルゴリズ

  • 文字列の類似度を測る(1) レーベンシュタイン距離|Colorless Green Ideas

    ある文字列と別の文字列の類似度を測る手法の1つである、レーベンシュタイン距離について紹介する。文字列の類似度は検索エンジンやDNAの塩基配列の調査などにも使用されており、応用範囲は広い。 はじめに Googleの検索結果の訂正候補 検索サイトで検索語を間違えて入力してしまった場合、検索エンジンが訂正候補を出してくれることがある。図に掲げた例では、「マクドナルド」と入力しようとして、誤って「マクラナルド」と入力してしまっているが、Google は「マクドナルド」の検索結果を返している。誤ったものを入力すると、その誤ったものと似た正しいものを返しているのである。 このように訂正候補を出すには、まず入力されたものと似ているものを探し出すということが必要になる [1] 。そして、似ているものを探し出すには、何をもって似ているとするのかということを決めなくてはならない。つまり、類似度の尺度が必要とな

  • 1