タグ

コーパスに関するmakoto15のブックマーク (6)

  • Home

    An enhanced and expanded version of PHRASEBANK is available in PDF or Kindle format: Home page The Academic Phrasebank is a general resource for academic writers. It aims to provide you with examples of some of the phraseological ‘nuts and bolts’ of writing organised according to the main sections of a research paper or dissertation (see the top menu ). Other phrases are listed under the more gene

    Home
  • ねこでもわかるWord2Vec入門 - Qiita

    モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルにわせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルにわせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です

    ねこでもわかるWord2Vec入門 - Qiita
  • 日本語対訳データ

    これは、日語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。もしこのリストに載っていないものがあれば、遠慮なく教えてください!また、日語を含まない言語対のリストはほかのサイトでたくさんあります: 1 2 3。 日英 対訳コーパス 以下の資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。 名前文数研究用商用説明

  • 순천 일본대학입시 송호일본어전문학원 : 네이버 블로그

  • Web本文抽出 using crf

    2009-03-22 @Kansai.pm HTML::ExtractContent (Perl) の話。 http://search.cpan.org/dist/HTML-ExtractContent/lib/HTML/ExtractContent.pm

    Web本文抽出 using crf
  • おすすめコーパスサイト

    イギリスのコーパス British National Corpus 略してBNC。1億語の徹底したサンプル・コーパス(バランスよく様々な領域からサンプリングして構築したコーパス)。かつてはその中に含まれていたデータの著作権者の一人が,どういうわけかEU以外での販売の禁止を主張したため,わが国でも入手が不可能となり,研究の進展を妨げていた。しかし,BNCは世界からの要望に答え,この「問題の」データをはずしたため,現在誰でも購入できるようになった。契約書(End User Licence)を2枚送って申し込めば,CD-ROM2枚が送られてくる(SARAというコンコーダンサが付いている)。シングルユーザーで£50。クレジットカードでの申し込みが可能。今後コーパスを格的に使おうという人は買って損はしない。ただ,なにぶん1億語なので解凍するときに,パソコンがフリーズしたかと思うほど時間がかかるので

  • 1