您的位置: 网界网 > 大数据 > 正文

打击虚假评论行动

2015年01月09日 10:08:56 | 作者:IBM大数据专家 James Kobielus | 来源:

摘要:虚假评论正在毒害互联网。我们将在这里展示机器学习是如何揭露这些虚假评论的。

标签
虚假
评论
大数据
社交媒体

【CNW.com.cn 专稿】虚假评论正在毒害互联网。我们将在这里展示机器学习是如何揭露这些虚假评论的。

客户情感是一种软性货币。良好的评论是一种具有获利能力的数据,尤其是那些来自于拥有影响力且信誉良好来源的评论,这些评论很快就会被广为传播。换句话说,赢得粉丝和他们的关注将非常关键。

当然,这一营销原则也会以相反的方式工作,负面情绪和差评将成为成功路上的绊脚石。丧失信誉后很难再重新赢得信任。如果在社交媒体、电子商务网站或评论网站等公共论坛中一直存在无理指责,那么你无法指望公众会忘记你在去年或是前年受到的恶意诽谤。它们将会永远地玷污你的品牌,即使这些指责毫无依据,即使你完全能够有效地对这些指责予以澄清。

不过,让人对在线评论感到震惊的是,这种软性“货币”很容易被伪造。网络空间中充斥着虚假的评论,有的是积极的,有的是负面的。我们可以将“虚假”解释为:

■评论者可能冒用其他人的名字,隐藏他们受到“指使”的事实。(他们可能受到了雇佣,存在既得利益,或是希望通过好评获得其他方面物质上的好处,或者是通过差评来打压对手。)

■评论者可能使用假名或是匿名,以隐藏自己避免被指认出来。

■评论者可能是一个能够大量散布貌似合法评论的自动化程序,它能够淹没任何人工发布的真实评论。

由于所涉及的欺诈行为分为不同等级,找出虚假在线评论需要我们确认以下几方面的信息:

■来源的真实性;

■来源对所评论事物的公正性;

■来源所发表真实评论的原创性。

这是一件非常棘手的事情,特别是难以通过自动方式在这些虚假评论被散布前,或是造成危害前清除它们。在这方面,我近期偶然读到一篇有意思的文章,内容是关于堪萨斯大学正在尝试通过开发机器学习算法发现这些虚假评论。研究人员称(+本站微信networkworldweixin),对“更可靠社交媒体经验”的需求推动了他们的这一创新。

文章认为,对评论帖子可以进行语义分析(以查找虚拟评论者的动词使用特征)、图解分析(能够评估每名评论者的身份状态与他们所发贴网站之间的联系)、孤立点分析(能够根据所表达的情绪和发贴频率来确定帖子是否在正常范围之外)和行为分析(能够确认虚假评论者是否随着时间和网站的变化不断调整他们的策略以避免被发现)。研究人员正在尝试着对虚假评论攻击进行建模,以图表形式展示“社会学、心理学和技术因素”之间的交互关系。

如果网民相信虚假帖子会被及时准确地找出来,那么他们可能会更为信任在线评论。与所有的内容过滤技术一样,反虚假评论算法需要最小化误报率(将真实评论误当作虚假评论)和漏报率(将虚拟评论错误地归为真实评论)。

除了使用这些评论来决定这个网站、社区和公司是否值得发生联系的公众之外,那些名誉已处于危险之中的企业和在线实体显然也是利益相关者。如果研究人员能够成功地用机器学习算法来解决这问题,那么他们的工作就能够避免在线网站自己充当警察来判断哪些是虚假评论了。它们还能够帮助发现哪些有可能是虚假评论者,从而对他们进行深入调查,阻止他们访问网站,甚至是交给有关部门对他们进行惩处。

如果研究人员希望研发出具有实用价值的算法,那么他们需要让算法具备快捷、高效、可并行处理和自动化等特点。此外,这一算法还需要具备当今尖端的反垃圾邮件、反钓鱼和反恶意软件技术所具备的云扩展性。正如没有人希望手工过滤掉那些多如牛毛的骗子一样,没有人愿意自己判断“这家餐馆的菜真难吃”这句评论是真正用餐者的真实声音,还是对面街区上竞争对手的蓄意差评。

这一举措实际上是要找出真实与虚假之间的分界线。目前反讥讽算法也在尝试着通过不同的结论找出这样一条分界线。(范范编译)

[责任编辑:于翔 yu_xiang@cnw.com.cn]

我也说几句

热点排行

云分析的未来
云分析的未来
应用案例的爆炸性增长也促进了云分析的增长。不过,真的能够确认云是IT...
Hadoop可能已经达到预期的成熟度
Hadoop可能已经达到预期的成熟度
五年前,Hadoop用可以解决所有大数据难题的身份杀入主流市场。如今尘埃...