搜索引擎的工作原理:抓取、索引和排名

时间:2022年12月08日

/

来源:网络

/

编辑:佚名

搜索引擎是应答机制,它的存在是为了发现、理解和组织互联网内容,以便为用户搜索的问题提供最相关的结果,那么搜索引擎的工作原理就有必要了解下了。为了出现在搜索结果中,你的内容首先要对搜索引擎可见,其次要被收录,如果你的网页没有被索引,那将永远不会出现在 SERP(搜索引擎结果页面)中。
搜索引擎的工作原理
搜索引擎的工作原理
一、搜索引擎的工作原理
搜索引擎通过三个主要功能工作:
1、爬行:在 Internet 上搜索内容,查看spider找到的每个 URL 的代码/内容。
2、索引:存储和组织在爬行过程中发现的内容。一旦页面在索引中,它就会在用户搜索时显示在查询结果中。
3、排名:提供最能回答搜索者查询的内容片段,这意味着结果按最相关到最不相关的顺序排列。
什么是搜索引擎爬行?
爬行是搜索引擎派出一组机器人(称为爬虫或蜘蛛)来查找新内容和内容更新的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接发现的。
什么是搜索引擎爬行
什么是搜索引擎爬行
Googlebot首先获取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链接路径跳跃,爬虫能够找到新内容并将其添加到名为Caffeine的索引系统中,这是一个包含已发现 URL 的庞大数据库,在用户搜索该 URL 上的内容时做出很好的匹配。
什么是搜索引擎索引?
搜索引擎处理和存储它们在索引中找到的信息,索引是一个巨大的数据库,包含已发现的所有内容,并足够为搜索者提供服务。
什么是搜索引擎排名?
当有人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名,一般来说,你可以假设网站排名越高,搜索引擎认为该网站与查询需求越相关。你也可以将网站的部分内容或全部内容阻止搜索引擎来抓取,虽然这样做可能是有原因的,但如果你希望搜索者找到你的内容,你必须先确保爬虫可以访问它并且可以编入索引。
二、如何查看网站在搜索引擎中的索引
正如刚刚提到的搜索引擎的工作原理,确保你的网站被抓取并编入索引是出现在 SERP 中的先决条件。如果你已经有一个网站,可以先查看索引中的页面数量。检查索引页面的一种方法是“site:krseo.com”,前往谷歌并在搜索栏中输入以上命令,这将返回 Google 在其索引中针对指定站点的结果:
如何查看网站在搜索引擎中的索引
如何查看网站在搜索引擎中的索引
Google 显示的结果数量(请参阅上图的“关于 XX 结果”)并不准确,但它确实可以让你清楚的了解网站哪些页面被编入索引,以及它们在搜索结果中的显示方式。
要获得更准确的结果,请使用 Google Search Console 中的索引覆盖率报告。如果你目前没有,可以注册一个免费的Google Search Console 帐户。使用此工具,可以为你的网站提交站点地图,并监控实际添加到 Google 索引中的提交页面数量等。
如果的网站没有出现在搜索结果中,可能有以下几个原因:
1) 你的网站是全新的,尚未被抓取。
2) 你的网站没有在任何外部网站建立链接。
3) 你网站的导航使爬虫难以有效的抓取它。
4) 你的站点存在阻止爬虫抓取的代码,这些代码会阻止搜索引擎收录网页。
5) 你的网站存在严重质量问题而受到 Google 的处罚。
三、如何让搜索引擎抓取你的网站
如果你使用 Google Search Console 或“site:domain.com”发现索引中缺少某些重要页面和某些不重要的页面被错误地编入索引,则可以通过一些优化更好的指导 Googlebot 抓取你的网页内容。比如通过GSC的网址检查将重要页面提交给Google优先加入索引、通过robots.txt告诉搜索引擎哪些页面不想让 Googlebot 找到。包括诸如内容稀少的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页等内容。
Robots.txt 文件位于网站的根目录(例如 yourdomain.com/robots.txt),并在文档中写明让搜索引擎抓取和不抓取的文件路径。如果 Googlebot 找不到某个网站的 robots.txt 文件,它会继续抓取该网站;如果找到这个文件通常会遵循规则并继续抓取该网站。
你还可以通过提交XML站点地图让爬虫发现和索引你的网页。确保 Google 找到你网站全部页面的最简单方法之一是创建一个符合 Google 标准的Sitemap文件并通过 Google Search Console 提交。它可以帮助爬虫跟踪到你所有重要页面的路径并将其编入索引。
如何让搜索引擎抓取你的网站
如何让搜索引擎抓取你的网站
四、与排名相关的一些数据指标
在谷歌排名中,参与度指标指的是表示搜索者如何通过搜索结果与你的网站互动的数据。这包括以下内容:
1) 点击次数(来自搜索的访问)
2) 页面停留时间(访问者离开之前在页面上停留的时间)
3) 跳出率(用户仅查看一个页面的百分比)
4) Pogo-sticking(点击一个搜索结果,然后快速返回 SERP 以选择另一个结果)
根据谷歌前搜索质量主管Udi Manber 的说法:排名本身受点击数据的影响,如果我们发现,对于特定查询,80% 的人点击 #2,而只有 10% 的人点击 #1,过一段时间我们就会发现 #2 可能是人们想要的,所以我们会提升它的排名。
各种测试已经证实,谷歌将根据搜索者的参与度调整 SERP 顺序:
1) Rand Fishkin 之前的测试让大约 200 人点击来自 SERP 的 URL 后,第 7 名的结果上升到第 1 名。有趣的是,排名提升似乎与访问链接用户的位置无关。在许多参与者所在的美国地区,排名位置飙升,而在谷歌加拿大、澳大利亚等页面上的排名仍然较低。
2) Larry Kim 通过测试一些热门页面及其平均停留时间的比较后表明,谷歌算法会降低停留时间较短页面的排名位置。
在网页排名方面,参与度指标就像一个事实检查器,它不会改变你网页的客观质量。链接和内容等客观因素首先对页面进行排名,然后参与度指标可以帮助谷歌在用户体验方面进行排名调整。如果搜索者的行为表明他们更喜欢其他页面,则你的排名可能会下降。
与排名相关的一些数据指标
与排名相关的一些数据指标
结论:现在本地化结果受事实数据的影响,这种交互性是搜索者与本地企业互动和响应的方式,由于 Google 希望向搜索者提供最好、最相关的本地业务,因此他们使用实时参与度指标来确定质量和相关性是非常有意义的。不过我们不必了解 Google 算法的来龙去脉(这仍然是个谜!),只需要对搜索引擎的工作原理(如何爬取、索引、存储和排名)有一个基础的了解即可。
猜你需要

豫ICP备2021026617号-1  豫公网安备:41172602000185   Copyright © 2021-2028 www.78moban.com/ All Rights Reserved

本站作品均来自互联网,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如有侵犯您的版权,请联系 1565229909#qq.com(把#改成@),我们将立即处理。