2010-01-11 21 views
6

Ben java programlama dili ile familier Ben bir web sitesinden veri ayıklamak ve benim makinede çalışan veritabanına saklamak istiyorum.O java.If mümkün o API kullanmak gerekir. Örneğin, bir web sitesinde listelenen okulların sayısı Bu verileri nasıl alabilirim ve veri tabanımdaki java ile nasıl saklayabilirim.Bir web sitesinden java kullanarak veri nasıl alınır?

+0

Dupes: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico

+0

Milyonlarca dupe! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, vb. vs, vb –

cevap

7

Sözünü ettiğiniz şey genellikle "ekran koruyucu" olarak adlandırılır. Java'da bunu yapmak için çeşitli yollar vardır, ancak ben HtmlUnit'u tercih ederim. Web işlevlerini test etmenin bir yolu olarak tasarlanmış olsa da, uzak bir web sayfasına vurmak ve onu ayrıştırmak için kullanabilirsiniz.

Tam olarak aradığınız HTML'den ayıklamak için Tagsoup gibi html ayrıştırıcısını işleme konusunda iyi bir hata kullanmanızı öneririz.

+0

Ben Tagsoup için öneride bulunabilirim. Şimdi bir süre için kullanıyorum 'gerçek dünya sayfaları' (anlam, geçersiz html ile dolu) veri formu ayıklamak ve harika çalışıyor – bert

0

Gerçekten ne yapmaya çalıştığınıza bağlı olarak, birçok farklı çözüm kullanabilirsiniz.

Bir web sayfasının HTML kodunu almak istemiyorsanız, URL.getContent() sizin çözümünüz olabilir.

http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

DÜZENLEME: İşte biraz öğretici olduğunu o HTML kodu ayrıştırmak için bir yol arıyordu anlamadı. Yukarıda bazı araçlar önerilmiştir. Bunun için özür dilerim.

1

Sen

http://sourceforge.net/projects/binhgiang/files/

den Vietspider XML kullanabilirsiniz

Download VietSpider3_16_XML_Windows.zip veya VietSpider3_16_XML_Linux.zip

VietSpider Web Data Extractor: Yazılım, web sitelerinden ((Data Scraper)) verileri tarar, XML standardına (Text, CDATA) formatlayın ve ilişkisel veritabanında saklayın. Ürün, Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres gibi çeşitli RDBM'leri destekler… VietSpider Crawler oturumu destekler (giriş, sorguya giriş, sorgu), çoklu yükleme, JavaScript kullanımı, proxy (ve çoklu proxy) Web sitesinden proxy'leri otomatik olarak tara ...)

İlgili konular