タグ

日本語に関するosskのブックマーク (7)

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

  • Google App Engine 日本語データのアップロード - Tommy Heartbeat 2nd

    utf-8csv をアップロードできると書いてあるんだけど…。」 Google App Engine には、クラウドのこちら側で作成した csv データをアップロードする機能がある。 http://code.google.com/intl/ja/appengine/docs/python/tools/uploadingdata.html ドキュメントによると、utf-8 で OK となっているので、日語のデータも問題ないはずなのだが、実は単純には行かない。ドキュメントの通りにローダークラスを作るのはいいんだけれども、その中にある項目定義部分を書き換える必要があった。 ('title', str), ('artist', str) となっているのだが、このままだとエラーが出てしまう。 ('title', lambda x: x.decode('utf-8')), ('artist'

    Google App Engine 日本語データのアップロード - Tommy Heartbeat 2nd
  • 天声を克えた人語 - 書評 - 日本語は亡びない : 404 Blog Not Found

    2010年03月08日22:30 カテゴリ書評/画評/品評Culture 天声を克えた人語 - 書評 - 日語は亡びない 筑摩書房松様より献御礼 日語は亡びない 金谷武洋 書に至るまで過去834点あったちくま新書の中で、最も感動した一点。 ここに、「日語が亡びるとき」は完美に論破された。 書が感動的なのは、2009年度小林秀雄賞を受賞した憂国の書を論破したという結果ではない。書の感動は、その過程にあるのだから。結果は引用できても、過程は引用できない。全世界1億4000万の日語話者は、それぞれの読み方で書を味わっていただきたい。 書「日語は亡びない」は、「日語が亡びるとき」が提示した懸念、あるいは仮説に対する、否定的かつ「ポジティブ」な回答である。 目次 はじめに 第一部 日語は亡びない 第一章 水村美苗『日語が亡びるとき』を読む なぜ日語ブームなのか/日

    天声を克えた人語 - 書評 - 日本語は亡びない : 404 Blog Not Found
  • PC

    厳選Linuxフリーソフト100 Linuxゲームでプログラミングセンスを磨く、ファイル操作も楽々 2024.02.29

    PC
    ossk
    ossk 2010/02/22
    普通のIMEが30万語くらいで作れるのですが、桁違いの数だとはと言えます。それを50MB以下に圧縮しているのも我々の特徴です。
  • http://starscafe.net/kotoba/misuse/nuance_a.htm

  • 「最近の若者はダメ論」まとめ

    近ごろ「最近の若者はダメ」が、(また)流行っているようなので、自エントリをまとめてみる。もし、「最近の若者は…」を見かけたら、ここを思い出してほしい。 きっかけは、職場の飲み会。「近ごろの若い連中はダメだ!」と一席ぶつオッサンがいたこと。それって、昔から言われてますね、と返すと、「何年何月何日に誰が言った!?出典どこだよ?何の根拠でそう断定できるんだよ?」ってオマエは小学生か。そこで調べてみたところ… ―――――――――――――――――――――――――――――――――――――― 1. 近ごろの若者は当事者意識がなく、意志薄弱で逃げてばかりいて、いつまでも「お客さま」でいる件について [URL] 「最近の若者はダメだ」と昔から言われているが、特に今の若者はひどい。当事者意識が欠如しており、いつも何かに依存し、消費し、批判するだけの「お客さま」でいつづけている――という小論。出典を隠すと、内田

    「最近の若者はダメ論」まとめ
  • 木簡字典・電子くずし字字典 [共通検索システム]

    『木簡画像データベース・木簡字典』『電子くずし字字典データベース』連携検索へようこそ 2009年10月より、奈良文化財研究所と東京大学史料編纂所は、文字を読み解くツールとしてそれぞれ開発した上記2つのデータベースについて、相互に連携検索サービスを開始しました。所属を異にする両研究所が、初めて取り組む共同事業となります。幅広くご活用いただけますようお願いいたします。 両データベースが連携することを通じて、奈良文化財研究所が蓄積する木簡の字形・字体と、東大史料編纂所が集める古文書・古記録・典籍類の字形・字体を、一度に探すことが可能となりました。飛鳥・奈良時代から江戸時代に至るまでの1000年を越える、文字の変遷を御覧いただければ幸いです。

  • 1