Ayuda con "Scraping"

bkhm

Bovino adicto
#1
Buenas corral, tengo una problema que me esta volviendo loco, necesito un software o pagina web que me ayude a sacar datos de contacto de la pagina, solo poniendo la url, los datos ejemplo: correo, tel y nombre..
 
#2
En si no hay programas que te abarquen todo, pero con python lo puedes hacer de forma rápida y sencilla, sólo vé el código fuente de la página y localiza lo que quieres extraer, por ejemplo, supón que quieres obtener la lista de todos los usuarios que están conectados en ba-k. En python es algo como esto:


Código:
import urllib2
from lxml import etree
def get_users(html):
    parsedHTML = etree.HTML(html)
    pelement = parsedHTML.xpath('//div[@class="secondaryContent"]/ol[@class="listInline"]')[0]
    return([href.split("/")[-2] for href in pelement.xpath("li/a/@href") if "member" in href])
if __name__ == "__main__":
    response =  urllib2.urlopen("http://ba-k.net/foro/")
    print(get_users(response.read()))
Conviertes el HTML a XML para que puedas usar xpath para extraer los datos que te interesan.

Salida del código anterior

Código:
python test.py
['jarasuss.1550427', 'zakhar.146231', 'saleem666.2266724', 'pack_man12.625588', 'chalcosoma.272766', 'gral-patton.292160', 'casquer92.2341612', 'dudu_eduardo.996038', 'mariano-cota.170392', 'ricardo189011.2339331', 'mrvoyeur.2327960', 'gudy_mix.1239382', 'alq2016.2341648', 'jepo.1132910', 'zosso65.1371104', 'farid03.1147573', 'illuminati2000.272534', 'pabloc23.803538', 'skynet-rider777.674355', 'exxxtremvoyeur.2185397', 'alexito100.1372055', 'kulture.37200', 'gerardo-mtz.1475021', 'xex995.2336251', 'ralfive.1885939', 'ebaizabal6.33082', 'pabloramos.928508', 'webonsote.332763', 'deftones111.1173273', 'macv36.420953', 'nospheratu.963007', 'malaika.1004731', 'nean_degor.6424', 'xkobayashi.2307921', 'manuel-lopez-guido.2318240', 'askabar.1284297', 'erick-loco.1753858', 'perpertaor.812225', 'wyores.182447', 'demonertrigan.2339146', 'vitolita.671989', 'frango79.660142', 'sagalo.907658', 'roberthcarlos.691752', 'ektor_tama.864797', 'alexander-09.785322', 'jlavoignet.478716', 'jinju.2339882', 'gapm3282.1208110', 'perroculero.964544', 'kilowatito.851609', 'zulma36.2340052', 'konkerjr.1498846', 'herlange.174105', 'henryricardo.738733', 'camoca01.573648', 'alebrijex.1566053', 'sanyacner.1420248', 'jfrz.1619731', 'andr3w7.681109', 'brayantv.739837', 'julian1a.1045442', 'rafto.7012', 'gusfacnav.1289553', 'shecano1922.694148', 'adamastor.1806764']
Sólo tienes que ver como llegar al contenido que quieres obtener.

Saludos
 
Arriba