Hadoop Map Reduce kullanarak wikipedia veri döküntüleri üzerinde araştırma yapmak için çalışıyorum (bz2 formatında sıkıştırılmış). Bu çöplükler çok büyük olduğu için (5 T), xml verilerini HDFS'ye açamıyorum ve sadece hadoop'un sağladığı StreamXmlRecordReader'ı kullanamıyorum. Hadoop, sıkıştırılmamış bz2 dosyalarını desteklemez, ancak sayfaları rasgele ayırır ve bunları eşleştiriciye gönderir. Bu xml olduğundan, etiketler olarak bölmelere ihtiyacımız var. Haloop tarafından birlikte sağlanan bz2 dekompresyon ve akış xml kayıt okuyucusunu kullanmak için zaten var mı?Sıkıştırılmış bz2 (bzip2) nasıl okunur? Wikipedia dump'lar hadoop haritası için akış xml kayıt okuyucusunu azaltır
cevap
Sorununuz, açıklanan here ile aynıdır. Bu yüzden cevabım da aynısı TextInputFormat üzerinde kendi varyasyonunuzu oluşturmalısınız. Burada, mantıksal bir çizginin başlangıcını görene kadar satırları atlayan yeni bir RecordReader yaparsınız.
Wikimedia Foundation, sadece sıkıştırılmış tam döküm dosyalarını bz2 dosyalarını okuyabilen ve bunu haritalayıcılarınıza gönderebilen Hadoop Streaming arabirimi için bir InputReader yayınladı. Bir eşleştiriciye gönderilmekte olan birim tam sayfa değil, iki revizyon (gerçekte iki revizyonda bir fark yaratabilirsiniz). Bu ilk sürümdür ve eminim ki bazı hatalar olacak, ancak lütfen bir sıkma verin ve test etmemize yardımcı olun.
Bu InputReader, Hadoop 0.21'in bz2 dosyaları için akış desteği olduğundan Hadoop 0.21'i gerektirir. Kaynak kodu şu adreste bulunabilir: https://github.com/whym/wikihadoop
- 1. Hadoop - çoklu girişleri nasıl kullanır ve azaltır?
- 2. GoLang: bz2'yi goroutin üzerinde sıkıştırın, diğer goroutini tüketin
- 3. XML'de XML Nasıl Okunur?
- 4. javascript/jquery'deki bzip2 verisi nasıl açılır?
- 5. Grails'te XML site haritası
- 6. Hadoop tüm redüktörlere kayıt gönder
- 7. Hadoop Haritası Reduce text dosyasını okuyun
- 8. Hadoop Akış İşi Python'da Başarısız (Başarılı Değil)
- 9. AWS Emr'de Mxnet başarısızken Hadoop akış işi
- 10. 7z ile sıkıştırılmış bir metin dosyasından nasıl okunur?
- 11. Python için Wikipedia API
- 12. Sıkıştırılmış bir dosyaya dönüştürme
- 13. XMLTextReader türüne bir xml dizesi nasıl okunur
- 14. Java: Bzip2 kütüphanesi
- 15. Web'den XML dosyası nasıl okunur powershell
- 16. CDATA PowerShell ile XML dosyasında nasıl okunur?
- 17. xml dosyasından tek düğüm değeri nasıl okunur?
- 18. BOOST.IOstreams: sorun bzip2
- 19. PHP tarayıcısı wikipedia için çalışmadı
- 20. Kanalet ajan - Ben gzip veya bz2 gibi sıkıştırma belirtebilirsiniz?
- 21. Nasıl Wikipedia wikitable Python Pandas DataFrame dönüştürülebilir? Wikipedia ise
- 22. Yapılandırılmış Akış kullanarak Kafka'dan JSON biçiminde kayıtlar nasıl okunur?
- 23. Python 3'te akış olarak baytlar nasıl okunur?
- 24. .deflate dosyalarını indirmek için hadoop fs -getmerge'i nasıl kullanırım?
- 25. rayları etkin kayıt nesnesine xml
- 26. Hadoop -getmerge nasıl çalışır? Hadoop getmerge açıklamada
- 27. Hadoop
- 28. Akış ayrıştırması PHP'de 4 GB XML dosyası
- 29. Hadoop
- 30. Hadoop mongo-hadoop kullanarak python'a akıyor
Sayfaları neden etiketlere göre ayırmanız gerekiyor? – svick
Analiz etmemiz gereken verileri elde etmek için python'da ayrıştırıcı kullanabilmek için etiketlerine bölünmelerini istiyoruz (tüm sayfaların önceki revizyonları ve metinleri üzerinde farklı analizler yapıyor olacağız). –