Belirli bir kategoriye ait tüm Wikipedia makalelerini topladığım, Wikipedia'dan çöpleri çıkardığım ve db'mize eklediğim bir projem var.Python kullanarak Wikipedia dökümü dosyalarını ayrıştırmak için kullanılabilir bir ayrıştırıcı/yol var mı?
Öğeleri tamamlamak için Wikipedia dökümü dosyasını ayrıştırmalıyım. Bu işi yapmak için verimli bir çözümleyicimiz var mı? Ben bir piton geliştiricisiyim. Bu yüzden python'da herhangi bir ayrıştırıcıyı tercih ederim. Eğer bir öneride bulunmuyorsa, python'da bir portunu yazıp web'e katkıda bulunmaya çalışacağım, bu yüzden başkaları bundan yararlanır ya da en azından bunu dener.
Tek istediğim, Wikipedia dökümü dosyalarını ayrıştırmak için bir python ayrıştırıcısı. Her bir düğümü ayrıştıran ve işlerin yapılmasını sağlayan bir el ile ayrıştırıcı yazmaya başladım.