2008-08-25 14 views

cevap

12

NekoHTML, TagSoup ve JTidy, HTML'yi ayrıştırmanıza ve XPath gibi XML araçlarıyla işlem yapmanıza olanak tanır.

+0

XPath, HTML ayrıştırma yoludur, düzenli biçimlendirilmiş HTML'de olduğu gibi normal ifadeler başarısız olduğunda da yardımcı olur. –

7

Son derece basit olan HTML Parser'u denedim.

+0

Bir projede HTML ayrıştırıcısını kullandım ve tam olarak beklendiği gibi çalışıyordu –

+1

Ancak çok fazla öğretici yok ... – Lily

+0

Benim sözde "metin düğümünde sürünen bir sürü javascript parçacığı (ve öğe öznitelikleri) farkettim "ekstraksiyonlar. Hatalı HTML'nin tüm ayrıştırma işleminin başarısız olmasına neden olduğu bazı durumlar da vardır. Bu yüzden kendi projemdeki htmlparser kütüphanesini biraz daha iyi bir şeyle değiştirmek istiyorum. – benjismith

1

HTML'nin tam ayrıştırmasını yapmanız mı gerekiyor? İçeriğindeki belirli değerleri (belirli bir etiket/param) arıyorsanız, basit bir normal ifade yeterli olabilir ve daha hızlı olabilir.

İlgili konular