タグ

ブックマーク / id.fnshr.info (4)

  • 忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas

    「ドーモ。自然言語処理屋=サン。形態素解析辞書チャドーです」オジギ終了後0.7秒後。ネオサイタマのドロップボックスにアップロードされた辞書のURLが示された。 「アイエエエエ! ケイタイソカイセキ!? ケイタイソカイセキナンデ!?」 小説『ニンジャスレイヤー』の日語訳 [1] では独特の言葉遣いが使われており、俗に「忍殺語」 [2] と呼ばれている。この忍殺語の形態素解析を行うための辞書「チャドー」のバージョン1.0.0が2014年5月10日公開された。今のところ、Dropboxを通じて配付されている。 かつてニンジャが横行していた時代、日の人々は文字を連ねるのみで、それを分かつことを知らなかった。古事記にもそう書いている。しかし、言葉の切れ目が分からないと実際不便である。このような状況に対して、平安時代の哲学剣士ミヤモト・マサシは、ジュージツの修行中に形態素解析という手法を発見した。

    忍殺語形態素解析辞書「チャドー」がリリース|Colorless Green Ideas
  • Excelのダメなグラフでウソをつく法|Colorless Green Ideas

    Excel のグラフで事実を誇張したい場合、3Dグラフを使うと便利だ。というわけで、普通の棒グラフでなく、3D棒グラフを作る。 合格者数の推移を3D棒グラフにしたもの [1] グラフを描く視点を変える この段階だと、まだ「圧倒的な」感じはしない。だが、グラフを描く視点を変えれば、「圧倒的な合格力」を見せつけることができる。グラフを描く視点を変えるには、グラフ上で右クリックをしてメニューを出し、「3-D 回転…」を選ぶ。 「3-D回転…」というメニューからグラフを描く視点を変えることができる。 そうすると、次のような画面が出てくる。この画面の数値をいじることで、グラフの描かれ方が変わる。 数値を変えることで、グラフを描く視点を変え、別の印象を与えることができる。 まずは、「軸の直交」というチェックを外す。そうすると、次のような形のグラフになる。 「軸の直交」というチェックを外したあとの3D棒

    Excelのダメなグラフでウソをつく法|Colorless Green Ideas
    iww
    iww 2016/03/28
    魅せ方の問題であって嘘はついてないな
  • 最短の学術論文|Colorless Green Ideas

    はじめに 学術論文の価値はその長さで決まるわけではない。短い論文であっても価値があるものは少なくない。例えば、DNAが二重螺旋構造をしているというワトソンとクリックの1953年の論文 [1] は、たったの2ページしかない。この20世紀で最も重要な科学的発見を示した英語で書かれた論文の語数は、1000語に満たないのだ。これだけの短い論文であるが、この発見によってワトソンとクリックはノーベル医学・生理学賞を受賞することになった。 それでは、短い学術論文はどこまで短いのだろうか。 要約文が短い論文 学術論文には、普通、数十語から数百語の要約文(アブストラクト)を付す。だが、この要約文が非常に短い論文が存在する。 ベリーらによる2011年の量子論に関する論文 [2] の要約文は“Probably not”(たぶん、そうではない)という2単語しかない。 ベリーらによる論文の要約文はたったの2語しかな

    最短の学術論文|Colorless Green Ideas
  • 文字列の類似度を測る(3) レーベンシュタイン距離の拡張|Colorless Green Ideas

    文字列の類似度を測る単純な尺度としてレーベンシュタイン距離というものがあるが、このレーベンシュタイン距離を拡張した様々な指標について見ていく。 はじめに 以前、文字列の類似度を測る手法として、レーベンシュタイン距離というものを紹介した。これは、ある文字列から別の文字列にする際に挿入・削除・置換を何回行うかに基づいて、文字列の類似度を測る尺度であった。レーベンシュタイン距離は簡便な指標であり、実際色々な分野で使われている。ただ、レーベンシュタイン距離だけでは捉えきれない問題もあって、そういう場合は、レーベンシュタイン距離以外の方法で文字列の類似度を測ることになる。 今回は、文字列の類似度を測るための尺度の中でも、レーベンシュタイン距離を拡張したものについて紹介していきたい。特に、Damerau–Levenshtein距離というものと、距離の標準化の話は重要になってくるので、おさえておくと何か

    iww
    iww 2014/11/24
    レーベンシュタイン距離を文字列の長さで割るやつ、楽でいい
  • 1