Todos sabemos que poner una dirección de e-mail en una página web es pasto seguro de spammers cuyos robots recorren incansablemente Internet en busca que cadenas que encajen con la siguiente expresión regular:
\b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b
(
Expresiones Regulares en la shell. Ejemplos de uso con grep, awk y sed.)
Para mostrarlo, he buscado alguna web que tuviera muchas direcciones de correo y
la página de direcciones de contacto de la Universidad de Navarra resulta ser una excelente víctima para mi prueba. Con un comando como este:
$ wget -q -O -
http://www.unav.es/informacion/direccionesdecontacto.html | \
egrep -oi '\b[A-Z0-9._%-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b' | sort -u | sed 's/unav.es/unav.is/'
eval(unescape('%64%6f%63%75%6d%65%6e%74%2e%77%72%69%74%65%28%27%3c%61%20%68%72%65%66%3d%22%6d%61%69%6c%74%6f%3a%61%62%61%72%40%75%6e%61%76%2e%69%73%22%3e%61%62%61%72%40%75%6e%61%76%2e%69%73%3c%2f%61%3e%27%29%3b'))
eval(unescape('%64%6f%63%75%6d%65%6e%74%2e%77%72%69%74%65%28%27%3c%61%20%68%72%65%66%3d%22%6d%61%69%6c%74%6f%3a%61%64%65%6c%67%61%64%6f%40%75%6e%61%76%2e%69%73%22%3e%61%64%65%6c%67%61%64%6f%40%75%6e%61%76%2e%69%73%3c%2f%61%3e%27%29%3b'))
eval(unescape('%64%6f%63%75%6d%65%6e%74%2e%77%72%69%74%65%28%27%3c%61%20%68%72%65%66%3d%22%6d%61%69%6c%74%6f%3a%61%64%6f%6d%65%6e%6f%40%75%6e%61%76%2e%69%73%22%3e%61%64%6f%6d%65%6e%6f%40%75%6e%61%76%2e%69%73%3c%2f%61%3e%27%29%3b'))
eval(unescape('%64%6f%63%75%6d%65%6e%74%2e%77%72%69%74%65%28%27%3c%61%20%68%72%65%66%3d%22%6d%61%69%6c%74%6f%3a%61%67%6f%6e%7a%61%6c%65%7a%40%75%6e%61%76%2e%69%73%22%3e%61%67%6f%6e%7a%61%6c%65%7a%40%75%6e%61%76%2e%69%73%3c%2f%61%3e%27%29%3b'))
eval(unescape('%64%6f%63%75%6d%65%6e%74%2e%77%72%69%74%65%28%27%3c%61%20%68%72%65%66%3d%22%6d%61%69%6c%74%6f%3a%61%6c%6d%63%6f%6d%70%72%40%75%6e%61%76%2e%69%73%22%3e%61%6c%6d%63%6f%6d%70%72%40%75%6e%61%76%2e%69%73%3c%2f%61%3e%27%29%3b'))
[...]
vemos lo fácil que resulta extraer todas las direcciones de correo de una página. Para el ejemplo, yo he tenido la precaución de cambiar el dominio final
s/es/is/ para no dar aún más visibilidad a esas direcciones.
(more…)
You have already tagged this post. Your tags: