SRC bilgilerine ulaşmak için resim etiketleri için HTML dizgisini nasıl ayrıştırıyorsunuz?

Bunu yapmak için .Net WebBrowser.Document.Images()'u kullanıyorum. Belgeyi yüklemek için Webrowser gerektirir. Bu dağınık ve kaynakları ele alıyor.SRC bilgilerine ulaşmak için resim etiketleri için HTML dizgisini nasıl ayrıştırıyorsunuz?

this question'a göre, XPath, bu konuda bir düzenli ifadeden daha iyidir.

Bunu herkes C# ile nasıl yapılacağını biliyor mu? geçerli xhtml ise

kaynak

2008-09-26 Roberto Bonini

senin girdi dizesi sen davranabilirsiniz geçerli XHTML bir XmlDocument yüklemek, xml gibidir, ve XPath büyü yapmak :) Ama her zaman böyle değil ise.

public List<Uri> FetchLinksFromSource(string htmlSource) 
{ 
    List<Uri> links = new List<Uri>(); 
    string regexImgSrc = @"<img[^>]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>"; 
    MatchCollection matchesImgSrc = Regex.Matches(htmlSource, regexImgSrc, RegexOptions.IgnoreCase | RegexOptions.Singleline); 
    foreach (Match m in matchesImgSrc) 
    { 
     string href = m.Groups[1].Value; 
     links.Add(new Uri(href)); 
    } 
    return links; 
}

Ve bu gibi kullanabilirsiniz:

Aksi takdirde HtmlSource tüm resim bağlantılarını dönecek, bu işlevi deneyebilirsiniz

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("http://www.example.com"); 
request.Credentials = System.Net.CredentialCache.DefaultCredentials; 
HttpWebResponse response = (HttpWebResponse)request.GetResponse(); 
if (response.StatusCode == HttpStatusCode.OK) 
{ 
    using(StreamReader sr = new StreamReader(response.GetResponseStream())) 
    { 
     List<Uri> links = FetchLinksFromSource(sr.ReadToEnd()); 
    } 
}

kaynak

2008-09-26 11:32:43 mathieu

Bunun için, başımı kendi regeximin üzerinde beceriyordum! –

'([^ '" ">] +?)', Href boşluk içeriyorsa çalışmıyor! – Ahmad

Kullanarak (StreamReader sr = yeni StreamReader (response.GetResponseStream()) satırında ek bir kapatma ayracı eksik – Kaitlyn

-3

, bunu yapabilirdi:

XmlDocument doc = new XmlDocument(); 
doc.LoadXml(html); 
XmlNodeList results = doc.SelectNodes("//img/@src");

kaynak

2008-09-26 11:26:43 Khoth

İyi orada bir XmlDocument :) –

içine html sayfaları% 90 Zaten bu denedik. HTML geçerli bir XML değil. Ve böylece bir istisna atar. –

@RobertoBonini bir uzman ol! – Snickbrack

tek ihtiyacınız sadece normal bir ifade kullanmak görüntüleri ise. Böyle bir şey hile yapmak gerekir:

Regex rg = new Regex(@"<img.*?src=""(.*?)""", RegexOptions.IgnoreCase);

kaynak

2008-09-26 11:27:07 rslite

herhangi bir HTML ayrıştırma ile büyük bir sorundur "iyi biçimlendirilmiş" kısmı. Bu bok HTML'yi orada gördünüz - gerçekten ne kadar iyi biçimlendirilmiş? Benzer bir şey yapmam gerekiyordu - bir belgenin tüm bağlantılarını ayrıştırmak (ve benim durumumda) bunları yeniden yazılan bir bağlantıyla günceller. CodePlex üzerinde Html Agility Pack'u buldum. Kayar (ve hatalı biçimlendirilmiş HTML'yi işler).

Burada bir belgede bağlantıları üzerinden yineleme için parçacık İşte:

şans yükleme

HtmlDocument doc = new HtmlDocument(); 
doc.Load(@"C:\Sample.HTM"); 
HtmlNodeCollection linkNodes = doc.DocumentNode.SelectNodes("//a/@href"); 

Content match = null; 

// Run only if there are links in the document. 
if (linkNodes != null) 
{ 
    foreach (HtmlNode linkNode in linkNodes) 
    { 
     HtmlAttribute attrib = linkNode.Attributes["href"]; 
     // Do whatever else you need here 
    } 
}

Original Blog Post

kaynak

2008-09-26 20:19:37

"İçerik" nedir? –

SRC bilgilerine ulaşmak için resim etiketleri için HTML dizgisini nasıl ayrıştırıyorsunuz?

cevap

İlgili konular