タグ

Archiveとdictionaryに関するmyrmecoleonのブックマーク (3)

  • 研究用にニコニコ大百科の記事とコメント約24GBを公開‐ニコニコインフォ

    いつもniconicoをご利用いただきありがとうございます。 このたび、国立情報学研究所情報学研究データリポジトリ(IDR)ご協力の元、ニコニコ大百科の記事データを「ニコニコデータセット」に公開しました。 提供するデータ内容は記事ヘッダデータ、記事文データ(履歴含む)、掲示板データとなっています。形式はCSVで約24GBあります。非公開の記事や、ユーザーを特定できるIDは含まれていません。 データは研究目的であればどなたでもご利用いただけます。 希望される方は国立情報学研究所サイトより利用申請をして下さい。 ニコニコ大百科は未来検索ブラジルが運営する『あらゆる言葉について定義や意味、元ネタを解説する辞書・辞典』です。wikipediaと異なり、客観的で真面目な記事だけでなく、主観的で面白い記事も歓迎しています。HTMLCSSも用いることができるため、見た目に意味を持たせた記事もあるこ

    myrmecoleon
    myrmecoleon 2014/03/20
    まだちゃんと見てないけど履歴含めたデータなのか。
  • AAMT Meeting で話す: かげうらきょうのブログ

    昨日(8日)、AAMT(アジア太平洋機械翻訳協会)のミーティングで椎茸プロジェクトのお話をしてきた。 質疑などを通して気づいた、これまでのまとめ方で弱かったところの簡単なメモ。 辞書・コーパス・アーカイヴの区別が、言語の実態的な区別でありまた言語認識の理論的な区別でありまた言語記録/メディアの社会的な編成を表したものであることは、OK。 アーカイヴという言葉は要検討。これで押し切ってもよい。 NLの最近の流れ(コーパスベース)から言うと、コーパスのところであらゆる言語単位を扱う。このうち、語彙は辞書へ、歴史的記憶を伴う表現はアーカイヴへと再編成する、というかたちで問題は定義できる。 これを、翻訳者のレファレンス行動から捉えると、単語や熟語などは辞書に排他的に結びつけられているかの感を与えてしまう。 NLの流れの中で、一回性・歴史・具体性・アーカイブ・ラングの実体を出力とするかたちで問題を言

    myrmecoleon
    myrmecoleon 2008/09/15
    「コーパスのところであらゆる言語単位を扱う。このうち、語彙は辞書へ、歴史的記憶を伴う表現はアーカイヴへと再編成する」
  • 米原万里と柳瀬尚紀 : かげうらきょうのブログ

    先日亡くなった米原万里さんとジョイスの翻訳等をやっている柳瀬尚紀さんとの対談を米原万里『ガセネッタとシモネッタ』(文春文庫)から。柳瀬 ・・・・・・ただぼくはほとんどの英和辞典に不満で、つまりやや厳しくなるけれど、日の英和辞典を作っている人たちは英語の実例を知らないんですね。読んでいない。読んでいない人たちが、いかに多数集まっても、これは編集部に迷惑をかけるだけで、これぞっていう訳語は浮かび上がってこない。これぞという例文は選ばれないでしょうね。 米原 わたし、日の大学で驚いたのは、言語学をやる人が文学を読んでいないんですよね。 柳瀬 そうです。 米原 まあ言語学だけでなく、他の学問分野の人々もそうだけど。言葉を愛するならば、言葉の博物館である文学も愛してほしい。もちろん方法論は違うのですが、でも基的にそれが根幹にないと、お話にならないと思うんです。そういうことが、日の辞書の欠点な

    myrmecoleon
    myrmecoleon 2006/10/12
    「最近真面目に考えている、コーパスではなくアーカイブ、というポイントに対応しています」なんだか気になる。
  • 1