2010-12-15 18 views
5

Ben TagSoup ve jTidy kütüphaneleri için belgelere (mümkün ise resmi belgelere) bakıyorum.jTidy ve TagSoup belgeleri

Bu kitaplıkları, html (html, xhtml veya html5) etiketleri arasında karışık farklı ad alanlarına sahip xml etiketleri içeren html "tagsoup" dosyalarını işlemek için kullanmak istiyorum.

HTMLCleaner, NekoHTML ve Jericho'yu test ettim, ancak bir dosyayı silmek için en basit örneklerin dışında jTidy ve TagSoup belgelerini bulamıyorum.

ben vb hakkında bilgi ayıklamak, içeriğini manipüle etiketleri değiştirmek belgelere ihtiyaç ...

Teşekkür

Not:

: testinden sonra tüm seçenekler, ben Woodstox StAX/ kullanılan
+2

D [Jsoup] (http://jsoup.org) dikkate aldığınız id? [Daha iyi/kolay] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers) yapılamaz. O da iyi bir [Yemek Tarifleri] (http://jsoup.org/cookbook/) var. – BalusC

+0

Jsoup'u test ediyorum. Kolay görünüyor, ancak örnek kodları görüyorsunuz, iş parçacığı güvenli değil. haklı mıyım – angelcervera

+0

Bana mı öyle geliyor yoksa Jsoup çıktı akışını desteklemiyor mu? – slott

cevap

2

tagsoup-arkadaş google grubuna benzer bir sorunun cevabı yardımcı olabilir:

Documentation for TagSoup

Muhtemelen, onları gördüm ama JTidy için javadoc şu adreste bulunabilir: http://jtidy.sourceforge.net/apidocs/index.html

+0

Yani TagSoup SAX API kullanıyor, ancak T JTidy? :(Teşekkür – angelcervera

+0

JTidy yapmaz, temel olarak bir giriş akışı verdiğiniz, ayrıştırdığınız ve çıktı çıkışından çıkışı aldığınız bir şeydir. – Gilbeg