2015-11-03 15 views
5

OCaml'de HTML dosyalarını ayrıştırmak için bir kitaplık arıyorum. Temel olarak Jsoup/Güzel Çorba eşdeğeri. Ana gereksinim DOM'yi CSS seçicileriyle sorgulayabilmektir.OCaml ile HTML Ayrıştırma

page.fetch("http://www.url.com") 
page.find("#tag") 
+0

https://github.com/mirage/ocaml-cow adresinden – objmagic

+0

teşekkürler. Bunu buldum ama HTML desteği onların sağlam değil gibi görünüyor. "HTML giriş ayrıştırma ile çeşitli sınırlamalar vurabilirsin. Biz bunu İnek 1,0'dan önce çözmeyi umuyoruz, ama henüz yok ..." – gidim

+0

'ocamlnet' HTML’yi ayrıştırmanın bir yolunu bulmuş olsa da seçici desteği var. –

cevap

5

şeklinde şey Geçenlerde böyle bir şey için bir ihtiyaç vardı, bu yüzden bu soruyu gördükten ve yorumlar önerileri okuduktan sonra, ben eğlenmek için hafta sonu bir kütüphane "Lambda Soup" yazdı.

Gerçek HTML'yi almak için ocurl veya Cohttp gibi bir kitaplık kullanmak isteyeceksiniz. Bunu aldıktan sonra, sorulan soruyu

yapabilirsiniz. Diğer olasılıklar ve tam imza için, documentation'a bakın. CSS desteği ve uzantıları da dahil olmak üzere, kullanım ve yeteneklerin kapsamlı bir şekilde gösterilmesi için postprocessor veya tests belgelerine bakmak isteyebilirsiniz.

Yorumlarda, Lambda Soup Ocamlnet'in HTML ayrıştırıcısını kullanır. Lambda Soup, Markup.ml kullanıyor. Aksi takdirde, testleri çalıştırmak isterseniz OUnit dışında hiçbir bağımlılığı yoktur. Arayüzün değiştirilmesi (erken bir aşamada) veya kütüphaneye bir HTTP yükleyicinin eklenmesi ile ilgili tartışmalar da dahil olmak üzere her türlü geri bildirim için mutluyum (ki şimdiki gibi kütüphanenin kapsamını büyük ölçüde değiştirdiği için iffy görünüyor) Argümanları duyduğuma sevindim).

Lisans, BSD'dir.

+0

Bu harika görünüyor! Tüm çalışmalarınız için çok teşekkürler. Herhangi bir görüşüme sahip olduğum konusunda kesinlikle haber vereceğim. HTTP indirme ekleyerek bu aşamada gereksiz olduğunu katılıyorum. – gidim