nlpに関するnlpandaのブックマーク (4)

  • Python による日本語自然言語処理

    はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 『入門 自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日語を対象とする場合、いくつか気をつけなければいけない点があります。日語を扱う場合にも

    nlpanda
    nlpanda 2022/09/07
    日本語の前処理
  • 研究者流 コーディングの極意 言語処理学会第19回年次大会(NLP2013) チュートリアル資料(岡崎担当分)

    言語処理学会第19回年次大会 (NLP2013) チュートリアル資料(岡崎担当分) 岡崎 直観 東北大学大学院情報科学研究科 okazaki at ecei.tohoku.ac.jp http://www.chokkan.org/ @chokkanorg 研究者流 コーディングの極意 1 研究におけるコーディングの極意? • 今回のチュートリアルをきっかけにサーベイ – ソフトウェアエンジニア向けの指南書は存在 – でも,研究者向けの資料は数少ない • 自分が修士課程の頃は完全に我流だった – 複数文書自動要約のプログラムをすべてC++で実装 – *NIXを使うスキルはなく,すべてWindows上で実行 – 今から考えると,無駄だらけの実験作法だった • ほとんどの大学では実験の講義があるが… – 研究のためのコーディング作法は教えてくれない 2 繰り返される残念な光景 • 論文の締切前日

    nlpanda
    nlpanda 2022/06/01
    岡崎先生の資料
  • GECのタスク説明はなぜ難しいのか - Qiita

    概要 こちらの記事に対する私なりの整理です。 私もタスクの説明を書く時は毎回頭を抱えています。具体的には以下のポイントで悩みます。 入力のスコープ 「文」と言い切っていいのか(文章は対象外なのか) 「非母語話者(学習者)」が書いた文と言い切っていいのか(母語話者は対象外なのか) 誤りのスコープ 「文法誤り」と言い切っていいのか(スペル誤りや、コロケーションは文法誤りなのか) 流暢性に関する誤りはどういう位置付けにするか それで、厳密にタスクの定義を書こうとすればするほどどうしても長くなってしまい、予稿のスペース的にも論文のストーリー的にも無理があるので便宜上ついつい省いて説明しがちです。こういった読み手にある一定の前提を敷いた上で書けるのも、言語処理学会などの専門性の高い学会や研究会で発表するメリットの一つとはいえ、冒頭の記事でもあるように分野外の人からしたら「??」となるのは当然だと思う

    GECのタスク説明はなぜ難しいのか - Qiita
    nlpanda
    nlpanda 2021/12/16
    文法誤り訂正のスコープについて歴史的背景を踏まえて解説
  • Where have all the translators gone?

    Amid soaring appetite for non-English-language shows and a growing global streaming market, it ought to be a golden time for subtitle translators. The popularity of shows such as the Korean megahit Squid Game, which attracted 111 million viewers in its first 28 days to become Netflix’s most watched series ever, the Spanish series Money Heist (La Casa de Papel) and the French drama Lupin have prove

    Where have all the translators gone?
  • 1