随着全球手机使用量的增长,一种创造垃圾电子邮件的新途径已经为声名狼藉的营销市场开放了。这些广告商利用**短信服务(SMS)**文本信息,以潜在消费者为目标,给他们发送不需要的广告,即垃圾短信。这种类型的垃圾短信特别麻烦,它与垃圾邮件不同,因为许多手机用户需要为收到的每一条短息付费。研究一种可以过滤垃圾短信的分类算法,将会给移动电话供应商提供一种很有用的工具。由于朴素贝叶斯(Naive Bayes)已经成功应用于垃圾邮件的过滤,所以它很可能也可以应用于垃圾短信的过滤,然而,相对于垃圾邮件来说,垃圾短信的自动过滤有着额外的挑战。由于短信通常限制为160个字符,所以可以用来确定一条消息是否是垃圾信息的文本量减少了,这种限制与小的不方便手机键盘一起,导致很多人采用短信术语简写的形式,这进一步模糊了合法消息和垃圾消息的界限。让我们看一看一个简单的朴素贝叶斯分类器如何处理好这些问题带来的挑战。