网站服务器防御_服务器给人攻击有什么办法
防火墙
国内DDoS防御_香港高防IP防护DDoS攻击-寒冰互联
德尔网络
2020-09-18 03:26

上周,我们发布了bingbot系列的第一篇博客:最大化爬行效率,突出了bingbot的主要目标及其核心指标:爬行效率。 在bingbot系列的第2部分中,crawl团队的主要软件工程经理Cheng Lu分享了一个例子,说明我们如何优化流程,以最大限度地提高内容保持静态或不变的大型网站的爬网效率。 保持索引内容最新并限制对已更改内容的爬网 当大多数人进行搜索时,他们通常会查找最近发布的内容;但是,搜索引擎结果可能会链接到几天前到几年前发布的网页。这是一个挑战,尤其是当搜索者希望通过在线访问最新的内容来跟上最新的新闻和最新的趋势时。互联网和搜索索引充满了过去几年的鬼魂,这些鬼魂往往是由搜索引擎的力量复活的。例如,我能够检索到微软1996年的年度报告。有意思,是的,特别是如果我需要做一份历史报告,但如果我在寻找当前的年度投资报告,它就没有那么有用了。爬虫程序还需要发现、爬网和索引最新的微软年度报告,云盾,以便我在搜索时发现它。bingbot面临的挑战是它不能只获取一次网页。页面发布后,搜索引擎必须定期获取该页面,cc防御最好的服务器,以验证内容是否已更新,以及该页面是否为死链接。定义下一步何时获取网页是我们希望在您的帮助下优化的难题。 案例研究:康奈尔大学图书馆-一个拥有许多静态、不变网页的知识来源 我们试图解决的一个挑战是bingbot应该多久爬网一个站点来获取内容。答案取决于编辑和更新内容的频率。 康奈尔大学图书馆赋予康奈尔大学的研究和学习社区深厚的专业知识、创新的服务和通过战略伙伴关系加强的优秀藏品。他们的网站https://arxiv.org/是一个相关信息的宝库,它包含了从物理学到科学再到经济学等一系列主题的数百万网页。他们不仅拥有数百万个与计算机科学相关的网页和PDF文件,甚至还拥有与爬行和索引网站相关的内容 识别允许bingbot减少爬行频率的模式 虽然新的网页可能会每天发布,一些网页会定期更新,但康奈尔大学图书馆的大部分内容在一个月甚至几年内都不会编辑。内容大体上是静态的,未经编辑。我所说的未编辑,是指HTML可能会有一些变化,免费cc防御盾,例如{copyright 2018}将{become 2019}在1月1日,CSS和样式表可能会有一些变化;但是这些变化与更新Bing中的索引内容无关。这一页的内容还是一样的。此外,每年只有很少的文章被删除。他们的图书馆索引随着新的和更新的研究而增加,没有实质性地改变历史索引研究的内容。回顾我们的爬行数据,我们发现bingbot对内容进行了过度爬行,我们使用了更多的资源来检查并重新检查历史页面在本质上是否保持静态。我们了解到,我们可以优化我们的系统,以避免重复获取相同的内容,而不是定期检查重大变化。这导致大约40%的爬行保存在这个网站上!虽然我们在主要是静态内容的已识别模式方面的工作发现了一个减少这种"类"网站爬行的机会(缓慢且很少更改内容),但在下面的帖子中,我们将分享更多的经验教训。我们在提高爬虫程序效率方面的工作还没有完成,我们还有很多机会继续提高我们的爬虫程序的效率,怎么选择ddos防御大小,并在用于评估爬虫程序调度算法的数百种不同类型的数据中提高爬虫程序的能力。下一步是继续识别适用于许多网站的模式,这样我们就可以扩展我们的工作范围,ddos云防御多少钱,更有效地到处爬行。 敬请期待!接下来,在这一系列与bingbot和我们的crawler相关的文章中,我们将提供定义bingbots爬网配额和每个站点的爬网频率所涉及的主要标准的可见性。我希望您仍然期待了解更多关于我们如何提高爬网效率的信息,并且一如既往,我们期待看到您的评论和反馈。 谢谢!程路首席软件工程经理微软-必应法布里斯·卡内尔首席项目经理微软-必应