タグ

2011年5月5日のブックマーク (5件)

  • Intel unveils 22nm 3D Ivy Bridge processor

    bbquenny
    bbquenny 2011/05/05
    かっこいいなぁ。
  • 震災後も変わらぬニッポン

    東日大震災から早くも2ヶ月が過ぎた。3万人という大切な命が失われたてしまったが、被災地以外はすでにほとんど震災前と変わらぬ日常生活に戻った。そして現在の話題は、今夏の電力不足、原発を含むエネルギー政策、東電と政府による原発事故の被害者への損害賠償、などである。しかし今日は、そういった目の前の問題から少しはなれて、日の長期的な問題を考えてみたい。 日経済の一番の問題は、成長が止まっていることである。これは労働市場、資市場が硬直化し、産業構造が時代に合わせて柔軟に変化できなくなっていることが主な原因だが、今後は、さらに高齢化による労働人口の減少という人口動態も足かせになるだろう。解決策は、解雇規制の緩和や、資市場の改革を通して企業買収やベンチャー投資を活発にすることである。決して既得権益を守ることではない。震災後もこれらの構造問題は、何一つ進展が見られない。 出所: IMFのウェブ・

    震災後も変わらぬニッポン
  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • Excelで自然言語処理: [VBA関数] レーベンシュタイン距離を求める関数を書いてみた。

    レーベンシュタイン距離は編集距離のひとつです。文字列1→文字列2にするにあたり、最低何回挿入、削除、置換が必要かを求めることができます。'***************************************************' 関数名: LevenshteinDistance' 戻り値: 引数で指定した文字列のレーベンシュタイン距離' 作成日: 2010-03-08'***************************************************Function LevenshteinDistance(str1, str2)  ReDim DistanceTable(0 To Len(str1), 0 To Len(str2))  For i = LBound(DistanceTable, 1) To UBound(DistanceTable, 1) 

  • 平均と偏差、分散、相関

    調査とか測定を行って得たデータの集まりがあったとき、その集団の構造を端的に表現してしている代表的な言葉が平均値と偏差値です。 偏差値の出し方はともかくとして、平均値の出し方ぐらいはご存じだと思いますが、その概念的なものはどうでしょう。また、偏差値もよく聞く言葉ですが、何かモヤモヤした感じを抱いていませんか?これらはデータの集まりである集団構造を一言で表せる言葉ですので、統計にはよく用いられます。 ここでは、平均値・偏差値・分散及び相関などの概念について説明します。 【平均】 平均値を求めるには、データを全て加え総個数で割る事で求めていますが、このやり方は算術平均と呼ばれています。平均にはこの他に幾何平均、調和平均がありますが、これらは特殊なもので、通常特に断りが無ければ平均と言えば算術平均の事を指しています。 幾何平均は比率の平均を出したいとき、対数正規分布の中心を求めるとき、人口の増加率