转载

疏重于堵 如何应对网络爬虫流量很重要

网络爬虫(也被叫做网页蜘蛛、网络机器人)是一种能够“自动化浏览网络”的程序,它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

疏重于堵 如何应对网络爬虫流量很重要 企业Web流量中有高达60%可能是由网络爬虫产生的

现在,国际CDN企业Akamai发现,在企业Web流量中有高达60%可能是由网络爬虫产生的,而这些爬虫则是由用户或其他程序控制,并可能模拟人类的Web访问行为。几乎所有在线业务都可能受到各种类型的爬虫流量的影响。这可能包括抓取内容或价格信息的爬虫、用欺骗手段增加广告收入的自动“点击”爬虫、购买限量供应商品及服务而使合法客户无法正常购买的“交易”爬虫等。

为了阻止上述情况,企业往往会采取爬虫检测或防御解决方案来实现Web流量的自动发现及拦截,防止网络爬虫流量影响到企业网站的正常访问与响应,进而对业务和IT产生一定的负面影响。

当然,有时爬虫活动也可能会对企业业务产生有益的影响,但对站点性能的影响则不然。因此,企业机构需要一种新的方式,这种方式不仅要能够识别所遇到的爬虫活动类型,而且要能够提供多种超越简单拦截的、妥善应对不同类型爬虫流量的最有效的技术。

对此,爬虫管理器技术方案就显得相当重要了,Akamai云安全解决方案高级副总裁兼总经理Stuart Scholly表示,面对Web上充斥着爬虫,目前企业普遍面临两个选择,要么拦截要么默默忍受。但是很遗憾,这两种选择都不理想。而Bot Manager(爬虫管理器)将改变这种局面,该方案将给予企业客户能力和灵活性,使其可以根据业务目标,部署成功的爬虫管理策略。

疏重于堵 如何应对网络爬虫流量很重要 企业如何应对网络爬虫流量变得相当重要

与仅能实现Web流量自动发现及拦截的传统爬虫检测或防御解决方案不同,Bot Manager方案旨在为在Web上开展业务的公司提供支持,使他们在处理爬虫时能够采用更新、更全面的策略。通过帮助用户更好地识别并了解哪些类型的爬虫流量进入他们的站点,以及提供超越简单拦截的多样化策略,Bot Manager能够帮助客户采取最恰当的措施,更好地控制爬虫流量对业务和IT产生的正面或负面影响。

从许多方面来看,当企业进行在线销售时,爬虫活动是一种“经营成本”,直到现在,也没有一种好的方法来帮助企业深入了解爬虫流量,并在此基础上做出真正明智的决策。而在部署了Bot Manager后,来自互联网零售商、美国汽车零部件有限公司(U.S Auto Parts Network,Inc.)的IT总监William Avellan则表示,他们已获得了足够的信息,使其能够解决长久以来面对的所有爬虫问题,包括内容窃取、价格信息爬取,甚至能够识别托管这些爬虫的IP传输运营商等等。由此可见,面对不可避免的网络爬虫,如何进行更为有效、更高级别的管理,对于企业业务来说,才是一条真正的“疏通之道”。

疏重于堵 如何应对网络爬虫流量很重要 本文来源:中关村在线 责任编辑:王珏_NT2830

原文  http://digi.163.com/16/0226/06/BGNSENF500163HE0.html
正文到此结束
Loading...