タグ

Wikipediaに関するJD30671011のブックマーク (4)

  • 開発メモ: WikipediaのN-gram頻度DBを作る

    Wikipedia英語版の文中に出てくる単語の5-gramまでの組み合わせの頻度を数えてみた。全部で10億N-gramくらい処理した。 背景 英和辞書の収録語を選定するにあたり、単語N-gramの出現頻度を知っておくことが重要だ。前回の記事ではCOCA(Corpus of Contemporary American English)のN-gram頻度DBを利用したが、その他の選択肢も検討してみたい。COCAは口語とフィクションと雑誌と新聞と学術論文をバランスよく選定していると主張していて、確かに俺が知っているような英単語・熟語は大抵網羅されている。が、コーパス自体を自分で入手して前処理できると各種のチューニングができて嬉しいこともあるだろう。 で、簡単に手に入る大量のコーパスといえば、Wikipediaの記事である。Wikipediaの方が偏りがひどいという話もあるが、一般人が書く英語

    JD30671011
    JD30671011 2012/01/07
    おもしろい
  • Nibelungenlied – Wikipedia

    JD30671011
    JD30671011 2011/12/12
    ニーベルンゲンの歌
  • 「wikipedia日本語版を充実させる2ヶ月間(仮)」賛同者募集のお知らせ - 発声練習

    Togetter:「wikipedia.jaを充実させる2ヶ月間(仮)」賛同者募集のお知らせの修正追加版です。なお、この企画の良い名称募集中です。良い企画名がありましたら、このエントリーのコメント欄およびTwitterの@next49までよろしくお願いいたします。 追記(8月28日23:30) @monodoiさんの 「WikipediaをAcademicな立場からもある程度のQualityあるものに充実させましょうョ!」企画、略してWAQWAQ(ワクワク)企画として推すつもりです。 が面白いので、企画をTwitter上で議論する際のハッシュタグは #waqwaq とします。日語版Wikipediaの質問や要望は #jawp をつけてつぶやいていただけると援助が得られると思います。 追記(8月29日23:30) ブログベースだと内容を追いづらいと思いましたので、エントリーをベースにW

    「wikipedia日本語版を充実させる2ヶ月間(仮)」賛同者募集のお知らせ - 発声練習
    JD30671011
    JD30671011 2011/08/29
    時間的に余裕があったら参加するかな
  • Wikipedia:珍項目 - Wikipedia

    0ルピー紙幣 インドの模造紙幣。役人からの贈賄要求に抗議するため、市民団体が作成した。 1に等しい数? 0.999... 循環小数 0.999...によって表される実数は、寸分違わずちょうど 1 に等しい。その証明と、そこから広がる数学の世界。 100年電球 1901年から点灯し続けている消防署の電球。 1956年メルボルンオリンピックのニセ聖火リレー事件 ナチズムに起源を持つとして聖火リレーに抗議した学生のイタズラ。 300ページのiPhone請求書 AT&Tモビリティから送られた、300ページにも及ぶiPhone使用料金の請求書。 4千年紀以降 まず誰もその目で確認できないであろう遠い遠い未来の予想。 4分33秒 ジョン・ケージの前衛音楽。「第1楽章:休み。第2楽章:休み。第3楽章:休み」。 5秒ルール 落としたべ物がもったいない! というときの奥の手。世界規模で認知されている。 5

  • 1