Sitemap(站点地图)全知道
什么是Sitemap(站点地图)
Sitemap(站点地图)是一种文件的统称,通常Sitemap(站点地图)可以是txt或者XML格式。通过Sitemap(站点地图)你可以告诉搜索引擎关于你的站点中的网页、视频或者其他文件的相关信息,帮助搜索引擎更好的认识和理解你的站点。格式正确的Sitemap(站点地图)文件会帮助搜索引擎更高效地抓取你的网站。XML格式的站点地图,通常会包含更多的信息,比如你可以通过Sitemap(站点地图)文件告诉搜索引擎你认为网站中的哪些网页和文件比较重要,还会提供与这些文件有关的重要信息。例如,网页上次更新的时间和网页是否有任何备用的语言版本。

而在Bing和谷歌等搜索引擎,通过Sitemap(站点地图)文件还可以让搜索引擎理解下列更多事项,比如:
- 为视频内容提供视频时长、类别以及适合哪些年龄段的受众等关键信息;
- 为图片条目中可包含图片主题、类型和许可提供更多有用信息;
- 还可以为新闻条目提供更为确切的报道标题和发布日期。
是否所有网站都需要创建Sitemap(站点地图)?
在我看来并不是这样的。随着搜索引擎抓取能力的不断攀升,搜索引擎的爬虫已经可以在没有Sitemap(站点地图)辅助的情况下,正确的抓取、收录大部分的网页了。因而我认为如果你的网站符合下面这几种情况,那么你可以不用创建Sitemap(站点地图),依旧不会对站点的SEO带来不利的影响。
无需创建Sitemap(站点地图)的情形:
- 模板建站大多数情况无需创建Sitemap(站点地图):如果站点采用了 WordPress、Wix 或 Blogger 等 CMS系统,那么这些 CMS 已经自动向搜索引擎提供了站点地图,无需用户再采取任何手动措施;
- 小规模的网站无需创建Sitemap(站点地图):比如一般品牌官网,通常整个网站有效页面数量只有几百甚至几十个,对于这种量级的站点,一般来说,无需单独创建Sitemap(站点地图),只需要做好首页提交的工作即可;
- 在内链完备的情况下,也无需创建Sitemap(站点地图):对于页面量级在十万以下的站点来说,只要网站内链设置恰当,那么搜索引擎爬虫就可以从首页沿着内链的步骤,最终爬取到所有的重要页面。
- 对于Bing和谷歌来说,提交正确格式的图片和视频Sitemap(站点地图),有助于对应内容出现在搜索引擎“视频”&“图片”搜索结果中。反之,如果你不希望自己站点的图片、视频出现在这些搜索位置,那么就不用提交对应的Sitemap(站点地图)。
那么,又有哪些情况,是应该考虑创建Sitemap(站点地图)的呢?下面归纳了4种建议主动创建并提交Sitemap(站点地图)的情形:
建议创建Sitemap(站点地图)的情形:
- 网站规模大建议创建Sitemap(站点地图):如果你的站点有效页面数超过10W,那么建议你生成并维护Sitemap(站点地图)文件,以便搜索引擎有可以更便利和完整的抓取所有网页;
- 网站更新速度快创建Sitemap(站点地图):对于每天都会更新大量内容的站点(比如新闻网站)来说,创建Sitemap(站点地图)有利于搜索引擎在第一时间获知更新内容并完成收录和展示。在这种情况下通过提交Sitemap(站点地图),对于保护内容的原创性有所帮助;
- 当站点有大量内容页存档,且内容之间缺乏内链,建议创建Sitemap(站点地图):如果您的站点内的网页没有被内链有机的结合成为一个整体,有很多孤立的页面需要通过URL才能访问到,那么在创建Sitemap(站点地图)中列出这些网页,可以进一步确保搜索引擎在抓取的时候,不会漏掉其中某些网页。
- 网站是建立的,且缺乏指向网站的外部链接时,可以创建Sitemap(站点地图):在新站点上线支出,一次性的提交Sitemap(站点地图)有助于搜索引擎更快的收录并展示该域名下的内容。
- 网站包含大量富媒体内容(视频、图片)且希望这些内容能够更好的在Bing和Google中展示就应该创建高级Sitemap(站点地图):如果提供了Sitemap(站点地图),在适当情况下,必应和谷歌就有概率将这些信息用于用户的高级搜索结果匹配和展示。
以上,就是关于在什么情况下我们应该创建Sitemap(站点地图),在什么情况下Sitemap(站点地图)其实并没有那么重要的一些评判标准。
如果你经过上面的这些建议评判后,还是希望创建自己的Sitemap(站点地图),那么你可以参考下面的方法:
常见的Sitemap(站点地图)格式:
最为常见的Sitemap(站点地图)格式有两种,一种是XML格式,一种是纯文本(TXT)格式。
XML格式的Sitemap(站点地图)
如果你希望提交更为复杂的信息给搜索引擎知道,那么你可以选择XML格式的Sitemap(站点地图)。
XML格式的Sitemap(站点地图)的优点在于:可以包含更多的信息,帮助搜索引擎更好的理解你的网页内容。
而XML格式的Sitemap也有其缺点,主要缺点在于各个搜索引擎平台对XML格式的Sitemap的要求并不完全统一,因此如果想维护好XML格式的Sitemap,最好的办法是为每个你着重优化的搜索引擎,维护完全符合它要求的XML文件。
下面是一些常见的XML格式Sitemap要求:
TXT格式的Sitemap(站点地图)
TXT即纯文本格式,这种格式的站点地图优势在于:
- 生成简单,生成TXT格式的Sitemap(站点地图)仅需注意下列事项· TXT格式的Sitemap每行都必须有一个网址。网址中不能有换行。 · TXT格式的Sitemap不应包含网址列表以外的任何信息。 · TXT格式的Sitemap必须书写完整的网址,包括http或者https · 每个TXT格式的Sitemap最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。 · TXT格式的Sitemap需使用UTF-8编码。
- 通用性强,几乎所有的搜索引擎,均支持TXT格式的Sitemap文件;
不过TXT格式的Sitemap(站点地图)也有其自身的弊端,它仅仅能够做到将url告知搜索引擎,而无法在Sitemap(站点地图)中传递更多的信息。
其它格式的Sitemap(站点地图)
RSS、mRSS 和 Atom 1.0可以作为Google Sitemap(站点地图)使用
如果你的博客有 RSS 或 Atom Feed,那么您可以将该 Feed 的网址作为站点地图提交。注意,这种方式目前主要被Google支持,而Bing、Yandex、BaiDu等搜索引擎,均未支持此类格式的Sitemap。
在生成Sitemap(站点地图)后,我们还应该确保Sitemap(站点地图)和robots.txt 规则不要发生冲突。
Sitemap(站点地图)和Robots.txt的协同
如果在Robots.txt文件中,为一个页面使用了“noindex” 标签,那么它就不应该出现在站点地图中。
否则,搜索引擎的爬虫会认为“这个页面很重要,所以它被添加到站点地图中”。但是当爬虫去访问这个页面时,又被Robots.txt阻止访问。
所以在Sitemap(站点地图)提交的时候,一定要注意提交的内容,是否和Robots.txt有所冲突。
删除Sitemap(站点地图)
非常偶尔的情况下,你可能需要删除已经提交给搜索引擎的Sitemap(站点地图)。删除Sitemap(站点地图)的方法是首先在你的服务器端,将对应的Sitemap(站点地图)URL删除。然后再登陆需要删除Sitemap(站点地图)的搜索引擎管理后台,找到对应的Sitemap(站点地图)URL进行删除即可。
注意:删除Sitemap(站点地图),并不能删除搜索引擎已经抓取的Sitemap(站点地图)内的页面,也不能阻止搜索引擎继续爬取你的网站。
如果想让搜索引擎停止访问站点地图中列出的网址,请使用 robots.txt 规则来实现。
评论
发表评论