巨大なテキストファイルをソートする問題について、sortコマンドの挙動を中心にAmazon EC2インスタンス上で検証を行いました。その結果を記事にまとめたものです。 お題の説明 先日のTwitterでこんな話題がありました。論旨としては、非常に大きくメインメモリに収まらないサイズのテキストファイルをソートしたい場合にどうすればよいか、というものです。 解法はさまざまなものがありえると思いますが、この記事ではsortコマンドによるソートを試してみました。 一般論としての解法 stackoverflowなどを軽く眺める限りだと「普通のsortコマンドが最良ではないか」「GNUのsortは入力が大きい場合は外部ソートをしてくれる」などの回答が見つかります。 https://unix.stackexchange.com/questions/120096/how-to-sort-big-files
![巨大テキストファイルをsortコマンドでソートしてみる](https://cdn-ak-scissors.b.st-hatena.com/image/square/914342bb78dc6af51d2ccac47459fa37c1e99708/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--cyUw-dwO--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E5%2525B7%2525A8%2525E5%2525A4%2525A7%2525E3%252583%252586%2525E3%252582%2525AD%2525E3%252582%2525B9%2525E3%252583%252588%2525E3%252583%252595%2525E3%252582%2525A1%2525E3%252582%2525A4%2525E3%252583%2525AB%2525E3%252582%252592sort%2525E3%252582%2525B3%2525E3%252583%25259E%2525E3%252583%2525B3%2525E3%252583%252589%2525E3%252581%2525A7%2525E3%252582%2525BD%2525E3%252583%2525BC%2525E3%252583%252588%2525E3%252581%252597%2525E3%252581%2525A6%2525E3%252581%2525BF%2525E3%252582%25258B%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Asaka1%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzc0OGU0Njk0ZTMuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)