エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
無償配布の日本語・英語対訳コーパスのデータを綺麗にする - StatsBeginner: 初学者の統計学習ノート
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
無償配布の日本語・英語対訳コーパスのデータを綺麗にする - StatsBeginner: 初学者の統計学習ノート
★めぼしいコーパスをまとめてダウンロードしてクリーニングして統合するPythonのコードを最後にのせてま... ★めぼしいコーパスをまとめてダウンロードしてクリーニングして統合するPythonのコードを最後にのせてます。 ★少しソースを増やして、最終的には後日のエントリに書いてあるようなコーパス構成にしました。 日英対訳の(なるべく)綺麗なデータを得たい Transformerで機械翻訳をやろうと思ったのですが、てっとり早く試すだけの場合、綺麗な演習用データが配布されてる「英語-ドイツ語」や「英語-フランス語」のデータセットを使う人が多いんじゃないでしょうか。 でもそれだと、性能が実感できないので、なんとか「英語 ⇒ 日本語」の機械翻訳を実践したいと思いました。 そこでネックになるのが、 品質がよくて 分量が十分で 無償配布されている という条件をみたす対訳コーパスが、都合よくあるわけではないということです。 下記のページにいろいろまとまってるのですが、少なくとも私が確認した無償のものに関しては、ど

