2013-10-03 37 views
7

Stata ve Hadoop kullanarak herhangi bir deneyimi var mı? Stata 13 şimdi bir Java Plugin API var, bu yüzden onları güzel oynamak için basit olması gerektiğini düşünüyorum.Hadoop ve Stata

Özellikle istatistiksel analiz için uygun bir form haline getirmek için weblog verilerini ayrıştırabilmekle ilgileniyorum.

Bu soru yakın bir tarihte on Statalist geldi, ancak hiçbir yanıt alınamadı, bu yüzden burada, izleyicinin bu teknolojiyle deneyimleme olasılığının daha yüksek olduğu yerlerde deneyeceğimi düşündüm.

+0

, biraz invidious. Benim kendi tahminim, cevabınız “Hayır” olduğu için cevap alamıyorsunuz. –

+0

@Nick Cox Hakaret etmek istemedim. Statalist ve üyeleri için büyük bir saygım var. Garip ifadelerimi değiştireceğim. –

+0

Güzel ve teşekkürler. –

cevap

1

Dimitry,

Ben ELK Stack (http://www.elastic.co) kullanarak böyle bir şey yapmak daha kolay olacağını düşünüyorum. Logstash (orta tabaka), Apache Lucene motorunda, log verilerini temizlemek ve biçimlendirmek için birkaç parser/tokenizer/analize sahiptir ve elde edilen verileri, sonuç almak için oldukça kolay bir şekilde kırabileceğiniz bir HTTP API'sini ortaya koyan elasticsearch'e aktarabilir (örn. , insheetjson kullanın ve HTTP GET isteğini URL olarak iletin ve çok fazla sorun olmadan Stata'ya aktarılması gerekir).

Stata içinden daha sağlam JSON I/O yetenekleri oluşturmak için Jackson JSON kütüphanesini kullanmak üzere bir program hazırlamaya çalışıyorum ve bunu başarmak için başkalarıyla çalışmaya çalışmayı düşünmüyorum. İyi niyetli olmasına rağmen bu yardımcı olur

Umut, Billy Statalist kuvvetli, ben karşılaştırmasını bulabilirsiniz uzun süre olarak

0

Bu konuda bir (un?) Eğitimli bıçak alacağım. Java API'nın görünüşünden, arayan, Stata'yı bir veri deposu olarak görüyor. Eğer durum buysa, Stata'nın bir veritabanı olarak hadoop dünyasına sığacağını ve kendi InputFormat ve OutputFormat tarafından erişileceğini düşünürdüm. Özel durumunuzda, redüktörünüzün ayrıştırılmış verileri yazmak için kullanacağı bir StataOutputFormat yazacağınızı düşünürdüm. tek dezavantajı Ben Hadoop gerçekten tüm bu veri yazmak gerekecek

  • beri yardım edecek kullanarak bilmiyorum bu yüzden Stata apps/I O sınır olma eğiliminde olduğunu da başvurulan yorumlar gibi görünüyor her halükarda, ve hadoop kullanıp kullanmamanıza rağmen, yazmayı G/Ç bağlı olacak
  • .