La última oleada de spam

No sé si seré el único. Estoy convencido de que no. Sin embargo, las técnicas de los spammers van mejorando cada día. Era cuestión de tiempo que se les ocurriera hacer lo que hacen. Está claro:

* Un mensaje con un texto que «parece» normal, aunque no tiene sentido. Estos textos se pueden generar con cualquier programa siguiendo cadenas de Markov a partir de un texto ejemplo.
* Una imagen con publicidad.

Las imágenes no se pueden analizar para buscar patrones de spam, y el texto no es sospechoso, por lo que la mayoría de comprobadores de spam se quedan indefensos. De hecho, voy a mostrar un ejemplo tipo de los correos que me llegan con algunos comentarios intersantes (algunos trozos saldrán mal por la codificación HTML):



Return-Path:
Message-ID: <8561D09B.1BC5BD7@mtu-net.ru>
Date: Thu, 19 Oct 2006 14:45:41 +0500
From: "verdell olson"

User-Agent: fostering Program V Mail Client 5.0
MIME-Version: 1.0
To: XXX (eliminado a propósito)
Cc: XXX (también eliminado)
Subject: feeling down
Content-Type: multipart/related;
boundary="------------657711144548151672128162"
X-Virus-Scanned: by amavisd-new-20030616-p10 (Debian) at telemat.um.es
X-Virus-Scanned: by amavisd-new-20030616-p10 (Debian) at telemat.um.es
X-Spam-Status: No, hits=0.0 tagged_above=0.0 required=5.0 tests=HTML_MESSAGE,
MIME_HTML_ONLY
X-Spam-Level:
X-Bogosity: Unsure, tests=bogofilter, spamicity=0.514565, version=1.0.1
Status: RO
Content-Length: 17331
Lines: 255


--------------657711144548151672128162
Content-Type: text/html;
charset="us-ascii"
Content-Transfer-Encoding: 8bit

< !DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">






align=baseline border=0/>



That is not the reason I want you to go. I tell you
again that Fred    that she broke right down and cried,
and says she to me, I havent      view They
made a great deal of the view, and certainly there was  either of
them now If youd aseen her that day youd have
forgot      

and get along ragged about the lower      swim
if unhampered and   dog unhindered, but to clamber upward
in    

see, advert unharmed. A huge brute with
            

...





--------------657711144548151672128162
Content-Type: image/gif;
name="xtuqtsyjrwu.gif"
Content-Transfer-Encoding: base64
Content-ID:

R0lGODdhlQH7AIQAAP///5mZzJnM/8zM/8z//5nMzJmZ/8yZ/2aZzMzMzGaZ/zNmzGZmzP/M/zOZ
...
--------------657711144548151672128162--




Algunos comentarios interesantes. Por ejemplo, SpamAssassin, ejecutado para cada correo en la Universidad, queda totalmente derrotado. Es decir, no sirve absolutamente para nada con estos correos spam. La prueba de ello es la línea:


X-Spam-Status: No, hits=0.0 tagged_above=0.0 required=5.0


Es decir, 0% de probabilidad de spam.

Como yo estoy al tanto de que se dan estos fallos, también utilizo un filtro bayesiano para mi correo particular (uso bogofilter). Esto es similar a los filtros anti-spam de Gmail y Firefox/Thunderbird, por ejemplo. El pobre hace su trabajo hasta cierto punto, llegando en este caso a casi identificarlo como spam:


X-Bogosity: Unsure, tests=bogofilter, spamicity=0.514565, version=1.0.1


Es decir, le da un 51% de probabilidad de ser spam. Por supuesto que puedo hacer que bogofilter me clasifique como spam todo aquello mayor del 50% y ya lo habría encontrado, pero así se sufre un riesgo de falsos positivos (esto es, clasificar como spam algo que no lo es). El pobre bogofilter va aprendiendo poco a poco, pero le queda un camino, porque por ahora todavía no sabe qué hacer con ellos. Por supuesto, este mensaje le puedes decir que es spam (por ahora no está seguro), y así va aprendiendo... Espero que sea pronto, porque contra esto sí que estamos desprovistos.

Ni que decir tiene que analizar las imágenes en los correos es una cosa que ni se puede plantear. La culpa, por supuesto, son los correos en formato HTML. Donde esté un formato texto de toda la vida...

blog comments powered by Disqus