Bir web sitesinden java kullanarak veri nasıl alınır?

Ben java programlama dili ile familier Ben bir web sitesinden veri ayıklamak ve benim makinede çalışan veritabanına saklamak istiyorum.O java.If mümkün o API kullanmak gerekir. Örneğin, bir web sitesinde listelenen okulların sayısı Bu verileri nasıl alabilirim ve veri tabanımdaki java ile nasıl saklayabilirim.Bir web sitesinden java kullanarak veri nasıl alınır?

kaynak

2010-01-11 giri

Dupes: http://stackoverflow.com/questions/tagged/screen-scraping+java – Jherico

Milyonlarca dupe! http://stackoverflow.com/questions/26638/what-html-parsing-libraries-do-you-recommend-in-java, http://stackoverflow.com/questions/238036/java-html-parsing, vb. vs, vb –

Sözünü ettiğiniz şey genellikle "ekran koruyucu" olarak adlandırılır. Java'da bunu yapmak için çeşitli yollar vardır, ancak ben HtmlUnit'u tercih ederim. Web işlevlerini test etmenin bir yolu olarak tasarlanmış olsa da, uzak bir web sayfasına vurmak ve onu ayrıştırmak için kullanabilirsiniz.

Tam olarak aradığınız HTML'den ayıklamak için Tagsoup gibi html ayrıştırıcısını işleme konusunda iyi bir hata kullanmanızı öneririz.

kaynak

2010-01-11 18:45:00 lucas

Ben Tagsoup için öneride bulunabilirim. Şimdi bir süre için kullanıyorum 'gerçek dünya sayfaları' (anlam, geçersiz html ile dolu) veri formu ayıklamak ve harika çalışıyor – bert

Gerçekten ne yapmaya çalıştığınıza bağlı olarak, birçok farklı çözüm kullanabilirsiniz.

Bir web sayfasının HTML kodunu almak istemiyorsanız, URL.getContent() sizin çözümünüz olabilir.

http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

DÜZENLEME: İşte biraz öğretici olduğunu o HTML kodu ayrıştırmak için bir yol arıyordu anlamadı. Yukarıda bazı araçlar önerilmiştir. Bunun için özür dilerim.

kaynak

2010-01-11 23:31:32 almathie

Kesinlikle NekoHTML gibi iyi bir ayrıştırıcıya ihtiyacınız var. İşte

Groovy (Java tabanlı kodlama dili) kullanarak da olsa NekoHTML kullanarak bir örnek daha ziyade Java kendisinden daha:

http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy

kaynak

2010-01-21 09:31:02

Sen

http://sourceforge.net/projects/binhgiang/files/

den Vietspider XML kullanabilirsiniz

Download VietSpider3_16_XML_Windows.zip veya VietSpider3_16_XML_Linux.zip

VietSpider Web Data Extractor: Yazılım, web sitelerinden ((Data Scraper)) verileri tarar, XML standardına (Text, CDATA) formatlayın ve ilişkisel veritabanında saklayın. Ürün, Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres gibi çeşitli RDBM'leri destekler… VietSpider Crawler oturumu destekler (giriş, sorguya giriş, sorgu), çoklu yükleme, JavaScript kullanımı, proxy (ve çoklu proxy) Web sitesinden proxy'leri otomatik olarak tara ...)

kaynak

2010-05-20 04:10:25 vietspider

Bir web sitesinden java kullanarak veri nasıl alınır?

cevap

İlgili konular