sığdırmak için ben bir korumak için gereken herhangi bir ekstra depolama içermeyen ham bellek alanı yaklaşık 5,5/6 gigabayt etrafında 40/50 bayt 120 milyon kayıtların bir listesini her biri bellekte dizi.çok büyük veri kümesi benzersiz bir listesi oluşturma bellekte
Bu liste benzersiz olduğundan emin olmak istiyoruz. Bunu yapmaya çalıştığım şekilde bir Hashset <dize> oluşturmak ve tüm girdileri tek tek eklemek. Ben yaklaşık 33 milyon kayıtlarına olsun
Ben bellek tükendi ve liste oluşturma gezinme için yavaşlatır.
zamanında girişlerinin bu kitlesel listesini sıralamak için daha iyi bir yolu var mı? Düşünebildiğim tek çözüm bir saat boyunca Amazon EC2 Yüksek Bellek Dörtlü Ekstra Büyük Örnek kullanıyor. Sadece Benzersizliğine kontrol çalışıyorsanız
Teşekkür
Bu veri kümesi nerede depolanıyor? –