2012-01-05 22 views
6

ile ayrıştırılırken aşağıdaki şekilde HTMLAgilityPack ile HTML ayrıştırmaya çalıştık beyaz boşlukları ve yeni satır kaldırın: Maalesef xhtmlString gereksiz beyaz boşlukları ve satır karakterlerini içeriyorHTMLAgilityPack

HtmlDocument htmlDoc = new HtmlDocument(); 
htmlDoc.LoadHtml(xhtmlString); 

, böylece htmldoc ait _text şimdi şöyle : vücudun alt öğeleri ile çalışırken

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

Bu benim için bir sorundur.

Bu gereksiz karakterleri kaldırmanın en kolay yolu nedir?

HtmlAgilityPack, HTML'yi yeni satırlardan ve sekmelerden temizlemek için bir çeşit işlev sunuyor mu?

+0

Bunu çözmek için String.Replace kullanabileceği bir yolu var mı? –

cevap

1

Bu, belge girintisidir ve gereksiz boşluklar ve satırsonu karakterleri değildir.
Bunun nasıl bir sorun olabileceğini göremiyorum, ancak "\ t", "\ n" gibi özel karakterleri değiştiremiyor musunuz?

yararlı olabilir Belki yanlış bazı özelliklerini kurma ben bu Html Agility Pack: make code look neat
bulunan hızlı arama yapmak

+0

Özel karakterleri el ile değiştirebilirim ancak html'yi (zayıflama olmadan) ayırıyorum. Örneğin, yeni satır karakterleri farklı şekilde kodlanırsa, html'yi giren kullanıcı başka bir işletim sistemine sahip olduğundan sorun yaşayabilirim. – magnattic

+0

.Replace (Environment.NewLine, text); UNIX ve UNIX olmayan platformlar için çalışabilir, ancak "\ t" –

+0

@ matheusrufca hakkında bilgi sahibi olmaz - yeni satırların kullanımıyla ilgili endişeler geçerlidir. Kod çapraz platformunu çalıştıran bir sorundan bahsetmiyor, endişesi başka bir platformun yarattığı html'yi işlemek konusudur. –

İlgili konular