2013-02-03 25 views
6

Avro'da iki özel veri türünü kodlamak için en iyi yöntemleri anlamanızı istiyorum: Zaman Damgaları ve IP Adresleri.Avro'da belirli veri türleri için en iyi yöntemler

Timestamps (https://issues.apache.org/jira/browse/AVRO-739) için açık JIRA biletine rastladım, ancak konu bir süredir sessizmiş gibi görünüyor. Peki - Avro'daki Zaman Damgasını kodlamak için en iyi yöntemler nelerdir (tercihen bir MapReduce, Pig, Hive, Streaming bağlamında alt kullanım için). Ayrıca, diğer insanların IP Adreslerini Avro'ya kodlamak için neler yaptığını duymak isterim.

cevap

1

Avro'daki türlerin kodlanması konusunda bazı deneyimim var. Benim durumumda, büyük bir gereksinim Hive aracılığıyla veriye erişmektir.

  • Zaman damgaları için unix zaman damgalı bir float kullanılmasını öneririm. Bu, diğer kitaplıkların çoğu tarafından desteklenir ve zaman damgasını kullanabildiğiniz için Hive ile daha kolay çalışır.

  • IP Adresleri için bir string kodlaması kullanırdım. Veriyi kullanırken dizelerin okunabilirliğini, bunun için en iyi türü yaptığını düşünüyorum. Veri boyutunu düşürmek gibi başka gereksinimleriniz varsa, belki de bir ikili kodlama sizin için daha iyi olabilir.

İlgili konular