Sorum bu soruya benzer, ancak birkaç farklı kısıtlamayla:
- Büyük bir
\n
ayrılmış kelime listem var - her satıra bir kelime. Dosya boyutu 2 GB ile 10 GB arasında değişir. - Yinelenen satırları kaldırmam gerekiyor.
- İşlem, kopyaların kaldırılması sırasında listeyi sıralayabilir, ancak gerekli değildir.
- Bölümde, yeni benzersiz sözcük listesini çıktı almak için yeterli alan var.
Bu yöntemlerin her ikisini de denedim ama ikisi de bellek hataları ile başarısız.
sort -u wordlist.lst > wordlist_unique.lst
awk '!seen[$0]++' wordlist.lst > wordlist_unique.lst
awk: (FILENAME=wordlist.lst FNR=43601815) fatal: assoc_lookup: bucket-ahname_str: can't allocate 10 bytes of memory (Cannot allocate memory)
Başka hangi yaklaşımları deneyebilirim?
Awk unix.stackexchange.com/a/30178/56820
—
ezdazuzena