Bu konuyla ilgili internette cevap ararken ve okurken kafa karıştırıcı mesajlar alıyorum. Herkes deneyimlerini paylaşabilir mi? Ben gzipped csv değil, ama Parke için iç yapıları dosya Parke vs csv için tamamen farklı bir durum böyle bir gerçeği biliyorum ki, biliyorum.gzipped Parçalı HDFS için Parke dosyası ayrılabilir mi?
6
A
cevap
11
GZIP sıkıştırmalı parke dosyaları aslında bölünebilir. Bu, Parquet dosyalarının iç düzeninden kaynaklanmaktadır. Bunlar, kullanılan sıkıştırma algoritmasından bağımsız olarak her zaman ayrılabilirdir.
Bu gerçek aşağıdaki parçaya ayrılmış Parke dosyalarının tasarımı kaynaklanmaktadır:
- Her Parke dosyaları birkaç sıra gruplarından oluşur, bunlar HDF'ler Blok Boyutu aynı boyutta olmalıdır.
- Her bir RowGroup, sütun başına bir ColumnChunk oluşur. Bir RowGroup içindeki her ColumnChunk aynı sayıda Satırlara sahiptir.
- ColumnChunks, Sayfalar'a bölünmüştür, bunlar büyük olasılıkla 64KiB ila 16MiB arasındadır. Sıkıştırma, sayfa başı olarak yapılır, böylece bir sayfa, bir işin üzerinde çalışabileceği en düşük paralelleştirme düzeyidir.
Bir burada daha ayrıntılı bir açıklama bulabilirsiniz: Cevabınız için https://github.com/apache/parquet-format#file-format
İlgili konular
- 1. Bir Visual Basic (.NET/2010) dosyası okunabilirlik için ayrılabilir mi?
- 2. domuz komut dosyası, hdfs
- 3. AWS Lambda işlevinde bir parke dosyası oluşturma
- 4. SparkSQL - parke dosyasını oku doğrudan
- 5. Çok fazla RAM kullanmadan gzipped tar dosyası nasıl oluşturulur?
- 6. Apache Spark'de bir metin dosyası için HDFS nasıl oluşturulur?
- 7. parke versiyonu bir dosya yazmak için kullanılan
- 8. Biri x86_64'teki yığın belleği rbp'den çıkarılarak ayrılabilir mi?
- 9. S3 - HDFS
- 10. Bağımsız bir java kodunda parke dosyası nasıl okunmalı?
- 11. HDFS dosya görüntüleyicisi
- 12. Parke dosyaları için meta veriler oluşturma
- 13. Hadoop HDFS
- 14. Eşleyici dosyasında hdfs dosyasında SR ayrıştırıcı dosyası nasıl yüklenir?
- 15. HDFS içinde bulunan MapReduce JAR dosyası nasıl çalıştırılır?
- 16. Bir DLL dosyası için CLSID'yi mi alıyorsunuz?
- 17. /var/log/hadoop-hdfs altındaki hadoop-hdfs günlüklerini nasıl temizlerim
- 18. Fırtına: HDFS URI'yi HA HDFS ile HdfsBolt() içinde tanımlayın
- 19. hdfs dosyasında dosya yolu
- 20. Akış çerçeveler, parke dosya biçimleri
- 21. Parke Komut Satırından Kontrol Edin
- 22. javid'ten hdfs klasörünü sil
- 23. HDFS dizinleri üzerinden geçme
- 24. Evrişimin ayrılabilir olup olmadığını nasıl belirleyebilirim?
- 25. Kıvılcım yinelemeli HDFS dizini
- 26. CloudStore ve HDFS
- 27. .cpp dosyası dahil mi?
- 28. project.xcworkspace dosyası önemli mi?
- 29. İki parçalı Raylar mizanpajları
- 30. Numpy Array'larında parçalı fonksiyonlar
teşekkür ederiz. Sadece onaylamak istiyorum. Bunlar teknik olarak .gz.parquet dosyaları ve parquet.gz dosyaları değil, doğru mu? Sadece Microsoft Polybase gibi ürünler .gz dosyaları üretiyorlar ve dışardan parke formatında dışarı veri aktarıyorlar ve henüz kendileri veya dosya kümeleri içersinde sıkıştırılmış dosya olup olmadığını henüz doğrulamamışlar. – YuGagarin
Evet, gz.parquet olmalılar. Parke uygulaması ile sıkıştırma Parke içinde yapılmalıdır. İlk önce Parke'yi oluşturan ve ardından GZIP'yi çalıştıran bir aracınız varsa, bunlar aslında geçersiz Parke dosyalarıdır. Parke için, formatın bazı bölümlerinin sıkıştırılmadığı (örneğin, başlık) zorunludur. Bu parçalar küçüktür (genellikle bir veya iki KiB civarındadır), ancak onları sıkıştırmak önemli performans kaybına yol açacaktır. – xhochy