タグ

nlpに関するYaMasaのブックマーク (37)

  • Web:Mochi

    This page was last updated Sep. 26, 2023. 研究室について 2023/09/21: 言語文化学部 超域コース 計算言語学(望月)ゼミ配属希望の学生は,必ず事前にコンタクトを取ってください. 詳しくは,ゼミ紹介のページを参照してください.

  • おすすめコーパスサイト

    イギリスのコーパス British National Corpus 略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので

  • 言語処理学会 The Association for Natural Language Processing Home Page

    会員専用ページ (※ 会員情報の登録ならびに会費の納入については株式会社プロアクティブのシステムを使用しています。) 最新のニュースレター Vol.15 No.2 (2008年8月8日発行) 入会案内 雑誌「自然言語処理」の原稿執筆案内 (「3. 原稿の送付」 について変更がありますのでご注意ください) 雑誌「自然言語処理」のバックナンバー 雑誌「自然言語処理」の論文査読倫理綱領 雑誌「自然言語処理」の広告掲載について ニュースレター 年次大会 会則・諸規定(会則,学会員向けメーリングリスト投稿規定など) 日英対訳用語集について 日英対訳用語集(csvファイル) 学会動向調査 以下の内容は、研究者の便宜のためつけておりますが、言語処理学会として 責任を取るものではありません。御了承下さい。 言語データ情報 JEITA言語処理技術専門委員会による言語イニシャティブのリスト その他関連

  • 漢字を類似度検索可能にする (polog)

    アイデアとしては単純で、画像情報に落としたあとで全漢字pairに対して全pixelの一致数をカウントするだけ。 これの時にはリアルに全漢字でやろうとしてたんだけど、2万字=>4億ペアなので断念した。常用漢字1945文字を対象とする。 ActiveRecordやら何やら使いたかったけど、普通にやると結構面倒だったのでrailsプロジェクト作ってscript/runnerした。 ファイル rake db:migrateで create_table :chars do |t| t.column :char, :string t.column :byte, :integer end add_index :chars, :char add_index :chars, :byteこんなのと create_table :similarities do |t| t.column :c

    YaMasa
    YaMasa 2007/12/22
  • SourceForge.JP: Project Info - NAIST Japanese Dictionary

    最終更新: 2018-04-05 19:45 概要 プロジェクト概要 開発ダッシュボード Webページ 開発メンバー 画像ギャラリー 公開フィード一覧 活動 統計情報 活動履歴 ダウンロード リリース一覧 統計 ソースコード コードリポジトリリスト Subversion リポジトリ閲覧 チケット チケット一覧 マイルストーン一覧 チケットの種類一覧 コンポーネント一覧 よく使われるチケット一覧のリスト/RSS 新規チケット登録 文書 Wiki FrontPageの表示 ページ一覧 最近の更新 文書マネージャ 文書一覧 コミュニケーション フォーラム フォーラム一覧 ヘルプ (1) 公開討議 (1) メーリングリスト MLの一覧 ニュース

    SourceForge.JP: Project Info - NAIST Japanese Dictionary
  • http://chasen.aist-nara.ac.jp/chasen/faq.html.ja

  • 日本の言語資源・ツールのカタログ

    毎日新聞CD-ROM (1991年) Type Text Type.linguistics annotation/corpus Description 1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。 Annotation.document keyword Creator 毎日新聞社 Contact person 日外アソシエーツ (data-saleあっとnichigai.co.jp) Price 126,000円 Subject.language 日語 Date 1991 Format 1 CD-ROM. Format.encoding Shift_JIS Relation IsPartOf 毎日新聞CD-ROM URI http://www.nichigai.co.jp/sales/mainichi/mai

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • HugeDomains.com

    Captcha security check fieldmining.com is for sale Please prove you're not a robot View Price Processing

    HugeDomains.com
  • [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」

    Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」 2007-10-15-3 [WebAndCorpus] Web上のテキストデータをコーパスとして見る、 というテーマでブログ記事を書いていて、今回で5回目になります。 今回はリーズ大学の多言語コーパス検索サイトの話。 こういう活動は頭が下がります。 なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で 提供していますので、そちらでもお楽しみ下さい。 - ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」 - Sanseido Word-Wise Web [三省堂辞書サイト] http://dictionary.sanseido-publ.co.jp/wp/ § ■ウェブコーパス徹底活用 第五回 「リーズ大学の多言語コーパス検索サイト」 この連載の第二回[2007-09-03-1]で紹介した拙作「

    [を] Webとコーパス 第五回「リーズ大学の多言語コーパス検索サイト」
  • コーパスツール - FrontPage

    YaMasa
    YaMasa 2007/09/29
    コーパス検索・編集ツール茶器(Chaki)の最新ver
  • 英文校正サイト [NativeChecker]

    キットが販売されているのでチャレンジしやすい近頃では、ホームセンターに電気機器を製作するための道具がそろっています。そのため、DIY感覚で電気製品の自作を始めるのは難しくありません。「回路図や図面が読めなければ電気製品なんて作れない」と思う人もいるでしょう。たしかに、電気製品にはさまざまな部品が使わ…

    YaMasa
    YaMasa 2007/09/27
    Web文書をコーパスとして英文を校正。類義語検索機能あり
  • gr.jp

    This domain may be for sale!

  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • ChaKi's Wiki - ChaKi web site

    「茶器」とは タグ付きコーパスを管理・検索するためのツールです 「茶器」の配布 ChaKi-2.1.13 (2008.09.08 updated) 「茶器」に関するドキュメント インストールマニュアル 使用者説明書(version 2.1)(2007.11.20) FAQ 2007年度自然言語処理技術講習会資料(2007.9.3-5) 2006年度自然言語処理技術講習会資料(2006.9.4-6) ワークショップ「コーパスツール「茶器」を利用した言語研究(2006.2.12) 2005年度自然言語処理技術講習会資料(2005.8.29-31) 問い合わせ先 メイリングリスト

    YaMasa
    YaMasa 2007/09/20
    コーパスを検索・修正する管理ツール茶器
  • KURA: a Japanese lexical and structural paraphrasing engine

  • Automatically Constructed Case Frames

    Webから自動構築した大規模格フレーム βバージョン Webテキストから自動構築した大規模格フレームを公開いたします。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したものです。この格フレームは、Web上の約5億文の日語テキストから自動的に構築しており、約5万用言からなるものです。以下のアドレスから格フレームを検索することができます。 格フレーム検索 注意点:今回公開するのはβ版のため、検索条件によってはアクセス速度が非常に遅くなる場合があります。近日中にシステムを更新し正式公開する予定です。また、格フレームをダウンロードして利用したい方は別途ご連絡ください。 この格フレームに関するご意見、ご質問は nl-resource あっと nlp.kuee.kyoto-u.ac.jp 宛にお願いいたします。 参考文献 Daisuke Kawahara and Sadao Kur

    YaMasa
    YaMasa 2007/07/24
    Web文書から構築した格フレーム辞書を検索できる
  • IREX Home Page

    Information Retrieval and Extraction Exercise http://nlp.cs.nyu.edu/irex/ http://www.csl.sony.co.jp/person/sekine/IREX/ 最終更新日時 1999年7月26日 English homepage ワークショップ 1999年9月1日に学術情報センターのNTCIRと合同ワークショップ、 9月2ー3日には、IREXプロジェクトの報告を目的とした 独自のワークショップ(参加自由、無料)を開催します。 なお、8月30ー31日には、NTCIRのワークショップも行なわれます。 この参加者は評価参加者に限られています。 すべてのワークショップは同じ場所(KKRホテル)で行なわれます。 IREX Workshop Information in English IREX Workshop Info

    YaMasa
    YaMasa 2007/07/24
    「固有表現」の分類と定義
  • 言語理論と言語資料

    リンクは自由! 『日語学』第22巻(2003)4月臨時増刊号「コーパス言語学」, pp.6-15 掲載 言語理論と言語資料 ―コーパスとコーパス以外のデータ 後藤 斉 1. コーパスとは何か 言語の研究に関して「コーパス」ということを目にすることが増えているが、 その概念の理解は必ずしも十分に広まっているとはいえない。まずそれを 整理しておくことが必要であろう。 「コーパス」という語は英語のcorpusに由来し、これはさらにラテン語 corpus「体」(発音はコルプス)に発する。この語は文字通りの意味から転じて、 比較的早くから『ローマ法大全』Corpus Iuris Civilisのように「資料の総体」を 意味して使われ、この用法でヨーロッパ各国語に取り入れられた。特定のテキスト (音声言語を転写した資料を含む)のみに依拠して研究が行われるような場合には、 それをその研究におけるコーパ

  • 形態素解析辞書 UniDic

    人気デベロッパー Play’N Go は、2017年にユニークなスロットを発売しました ムーンプリンセス. オンライン スロットゲーム ムーンプリンセス このゲームは、そのユニークなオプション、シンプルな操作性、アニメをモチーフにしたカラフルなグラフィックにより、瞬く間にプレイヤーから人気を集めました。 スロットマシンの ムーンプリンセス は、漫画『美少女戦士セーラームーン』のテーマを明らかにする。第1巻は1992年に発売され、現在も人気があります。を可能にします MoonPrincess は、長年にわたり最高のスロットのリストをリードし、プレイヤーに寛大な配当だけを提供し、ゲームプレイへの関心を保証します。 すべてのシンボルが雰囲気を強調する オンライン スロットゲーム ムーンプリンセス, 心地よいサウンドトラックがゲームプレイを引き立て、音楽をパーソナライズできるため、ユーザーはスロッ