この記事は、みらい翻訳Advent Calendar 2023の1日目です。 こんにちは、エンジニアリング部の岩月です。社内ではwhatsと呼ばれております。 ChatGPTが公開されてちょうど1年が経ちましたが、自然言語処理業界は大規模言語モデル(LLM: Large Language Model)一色の様相です。となるとやはりLLMに関して何か記事を書きたいと思いキーボードを執りました。 何を解かせるか? せっかく機械翻訳の会社にいるので、翻訳っぽいことをやらせてみたいと考えました。これまでの人生の中で、これが訳せたらよかったのにと思った経験を振り返ってみると、古文漢文が浮かびました。 そこで、漢文の白文を書き下し文(訓読文)にするタスクに取り組みたいと思います。 「學而時習之、不亦說乎。」を「学びて時にこれを習ふ、また説ばしからずや。」に変換するアレです。 データ Wikisourc