タグ

2007年11月2日のブックマーク (4件)

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 時を止める人 - レジデント初期研修用資料

    レジデント初期研修用資料 引っ越し前の旧blogです。新しいアドレスは http://medt00lz.s59.xrea.com/wp/ になります 100年以上生きている人がいる。 寝たきりになって、濃厚流動を流し込まれてやっと「100」に到達したのではなくて、 100 年という時間ですら、単なる通過点にしかすぎないような人。 どこの病院にも、たいてい1 人ぐらいはそんな方がいて、例外なく異様に元気で、 ちょっと見た目は80歳ぐらいにしか見えない。頭もしっかりしていて、普通に会話するし、 杖も使わず歩いて外来に来る。 代謝速度と長寿 自分が受け持っているそんな超高齢の人は、 今年の3 月に転んでぶつけた頭の怪我が、まだ治らない。 傷はもちろん塞がっているし、痛くも何ともないんだけれど、皮下にできた出血が吸収されない。 もう8ヶ月以上たっている傷なのに、見た目はちょうど、治って1ヶ月位に

  • IPAフォーラム2007で討論してきた - 東大MOT学生の奮闘記

    10月30日に行われたIPAフォーラム2007の『「学生から見たIT産業」と「IT産業から見た学生」〜IT産業は学生からの人気を回復できるか〜』と題された討論会でしゃべってきた。IPAとは情報処理推進機構の略で、情報処理技術者試験とか、未踏ソフトウェア創造事業をやっているところ。 大学の先生から、討論会に出る学生を求めいているという話を聞いたのが討論会に参加したきっかけ。僕はてっきり、IT産業の未来について語り合うのかと思っていたのだが、「IT産業は3Kのイメージが強く、就職において人気がなくなってきているが、どうすればその人気を回復できるか」というタイトルを聞いて、ちょっとがっかりした。 @ITにこの討論会についての「IT業界不人気の理由は? 現役学生が語るそのネガティブイメージ − @IT」という記事が上がっていた。ちなみに、記事の最初の写真に討論会に参加した学生が写っているが、前列の

    IPAフォーラム2007で討論してきた - 東大MOT学生の奮闘記
  • 文章力を構成する6つの能力 - 最終防衛ライン2

    文章力って具体的にどんな力?どんな文章が文章力が高いのだろうか?これと良く似た命題が「演技力」な気がする。 文章力の無い文章なら分かるんですけどね。読む気が失せる、何を言っているのか分からない、等など。 文章力を構成する6つの能力 「文章力を向上させるには!」的な話を見聞すると、語彙力とか、表現力とか、演出、構成力とか色々な力を身につけなさい、という話が多い。また、筋道を立てて書けるかとか、先を読ませたくなるような文章であるかが問われることもある。つまり、文章力とは一つの能力では無く、文章を書く上で総合的な力のようだ。というわけで、文章を書く上で必要だと思われる能力を6つ挙げてみた。もちろん他にもありそうだけども。 語彙力(0次元) 言葉の使い方、選び方。 沢山の言葉を知っていることが望まれるが、必要に応じた言葉を選び出せるか。 言葉の微妙なニュアンスの違いを感じ取ったり、言葉遊びできたり

    文章力を構成する6つの能力 - 最終防衛ライン2