万字长文,拆解喜马拉雅SEO在内容组织上的优缺点
这是一个系列专题,在这里,我将对国内TOP互联网企业网站的SEO实施情况进行分析和拆解,通过案例分析,让大家能够更容易理解大厂SEO在产品设计的时候,和普通站点的SEO的区别在哪里。
今天选择拆解目标是国内TOP1的在线音频分享平台喜马拉雅,分析的重点是解读喜马拉雅这种有亿级内容的站点,如何设计内容架构能够对搜索引擎和用户都具有高价值和友好度。
在拆解之前,我们先来看看关于喜马拉雅的一些基本信息:
喜马拉雅
喜马拉雅是上海证大喜马拉雅网络科技有限公司于2013年3月上线的中国在线音频分享平台,采用UGC+PGC模式产出内容。平台提供了音频播放、下载、查找服务,也提供了用户个性化的个人推荐服务。用户也可以申请成为主播上传音频文件。
由于采用UGC+PGC模式,喜马拉雅平台吸引了许多音频制作者,其中不乏知名的声优、配音师、知名主持人、原创音乐人和一些草根明星。
根据喜马拉雅官方数据,截止至2020年底,喜马拉雅音频总量已超过2.8亿条。如此巨大的数据量,无疑是一个非常适于进行SEO优化的内容池。
今天我们就来对喜马拉雅的SEO进行一个详细的拆解和分析。
域名相关基本数据
主域名:ximalaya.com
域名创建时间:1999年01月31日
ALEXA世界排名:1,469
TOP全国排名:109
广播电视排名:1
来源 | 权重 | 预估单日引流(PV) |
---|---|---|
百度PC端 | 7 | 74,516 ~ 119,032 |
百度移动端 | 6 | 540,709 ~ 863,729 |
360 | 6 | 19,587 ~ 31,289 |
搜狗 | 6 | 14,834 ~ 23,696 |
神马 | 7 | 92,445 ~ 147,673 |
头条 | 6 | 26,888 ~ 42,952 |
喜马拉雅robots.txt文件解析
`User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /so/`
通过分析喜马拉雅的robots.txt文件,可以发现:
- 喜马拉雅对所有搜索引擎都开放了抓取权限,没有禁止特定爬虫。也就是说,他们认为网站内容是适合于提交给所有搜索引擎的,无论国内还是海外的搜索引擎企业均可获取喜马拉雅的内容。
- 喜马拉雅在robots.txt文件中屏蔽了搜索引擎对JS和CSS抓取。
屏蔽JS和CSS,大概是十年前SEO的主流手法,那个时候,无论是谷歌还是百度的爬虫,都无法对JS和CSS做出很好的解析。因此屏蔽JS和CSS不但可以提升爬虫的抓取效率,同时还可以有效降低由于爬虫请求JS和CSS带来的额外服务器开销。
而在2020年的今天,各家蜘蛛对JS和CSS的理解有已经有了质的飞跃,特别是对于喜马拉雅这种大型内容站点来说,开放爬虫对JS和CSS的抓取,在现在的技术环境下,应是利大于弊。
我想大概是由于喜马拉雅已经很久没有人维护这个robots.txt文件了,所以才会一直在还robots.txt中屏蔽了蜘蛛对于JS和CSS的抓取。
如果想了解更多关于robots.txt中如何处理JS和CSS的最新观点,可以参考这个文章。 - 最后,在robots.txt文件中,喜马拉雅屏蔽了蜘蛛对/so/目录的访问。
在分析的初期,我以为这个目录下,承载了由用户搜索行为自动生成的页面,而由于用户搜索行为不可控,所以未经内容审核的搜索结果页面虽然在SO这个目录下生成了,但是并不适于未经审核直接呈现给搜索引擎,因而在robots.txt文件中,屏蔽了对/so/目录的访问。
但是实际测验下来,无论在PC端还是M端,搜索结果生成的URL都是 ximalaya.com/search/[关键字] 这样的结构。因此喜马拉雅单独屏蔽这个目录的真正目的,还有待厘清。
喜马拉雅的页面设计
喜马拉雅目前还是沿用了较为传统的分站运营策略。为PC端和手机端,设计了不同的前端展示样式,而没有采用自适应的网站结构。这也是大量的从WEB1.0时代过来的互联网站点常用的方式。
用户用PC端访问喜马拉雅首页,
域名是ximalaya.com
看到的页面是这样的:
而切换到手机端,域名会自动切换为m.ximalaya.com,而首页展示也变成了下面这样:
而继续访问喜马拉雅的分类详情页,专辑详情页,音频详情页,也都会发现,这些主要的页面,都一一做了PC和移动两套页面,根据用户浏览器特征进行适配。
大家可以用PC端浏览器的隐身模式分别打开下面的地址,观察同一个页面喜马拉雅在适配不同终端时候的设计差异:
喜马拉雅有声书分类详情页
PC地址:https://www.ximalaya.com/top/hotplay/youshengshu/
移动端地址:https://m.ximalaya.com/top/hotplay/youshengshu
喜马拉雅专辑详情页
PC地址:https://www.ximalaya.com/youshengshu/34013148/
移动端地址:https://m.ximalaya.com/youshengshu/34013148/
喜马拉雅音频详情页
PC地址:https://www.ximalaya.com/youshengshu/34013148/257754992
移动端地址:https://m.ximalaya.com/youshengshu/34013148/257754992
喜马拉雅这样设计页面的优点:
- 利于用户访问,在PC端可以呈现更丰富的内容,而在手机端整体交互体验更为合乎操作逻辑;
- 利于爬虫抓取内容,PC端的页面布局,在单一页面上,能够承载更多的链接和密度更大的信息,有利于爬虫的抓取;
- 利于排名,在PC端页面,可以部署更多的关键词展现,以提升关键词的排名效果;
- 利于内链建设,在PC端的页面,通过顶部导航、分类导航、面包屑层级、相关推荐、页脚导航等多个模块,将站内的信息有机的结合和串接,打造了一个规模宏大,互联互通的内链机制,有效的传递了页面权重和流量。
但是这样的页面设计,也有其缺点,其中最大的缺点就是企业需要同时维护两套网站,任何的页面功能、内容的改版,都要做两次。无形中增加了企业的研发成本。不过喜马拉雅作为一个从PC互联网时代起家的站点,最早就有PC端的页面,逐渐又在PC端的基础上,进化出了iOS&安卓的App和M站。因为底子在,所以用PC站和M站双系统同时维护,对于喜马拉雅这种企业来说,是合理也是可以负担的开销。
对于这种体量的企业来说,如果非必要,以及老板强力推动,是没有人有动力去做全站的自适应适配的。这种工作做起来往往出力不讨好,完全没有必要。
而如果你是一个已经在App上有了内容积累,打算搭建网站来获取SEO流量的企业,那么在使用通过精心设计的自适应页面,来达到SEO友好和用户友好的平衡,同时也减少企业在WEB研发的上的开销是更为合理的方案。
而且在做自适应页面设计的时候,在UI上更多考虑用户在移动端的浏览体验为主要优化方向。
喜马拉雅的核心内容组织逻辑
根据喜马拉雅官方信息,截止至2020年底,喜马拉雅音频总量已超过2.8亿条。如此多的内容,如果仅仅是以sitemap或者索引列表的形式呈现,让搜索引逐条抓取,抓取的效率和质量势必都不会好。
在面对海量内容的时候,作为一个SEO从业者,我们可以从如下几个方面来思考:
- 如何保证内容的差异化
- 如何提升抓取效率
- 如何解决页面更新
- 如何自动、半自动的组织内容以产生更多页面
- 如何合理部署内链,传递页面权重
- 如何设计访问路径,给用户最优访问体验
为了回答以上问题,在SEO中最常用的方式是通过合理的目录设置,将内容格式化为合理的网状结构,让爬虫能够通过网状结构的各个起点,尽可能多的访问到更多的页面。
同时,合理的目录设置,不仅可以解决抓取效率的问题,也可以通过相同内容的聚合和更新,让聚合页面在特定关键词上拥有更好的权重,从而来带更好的搜索引擎排名和引流效果。
而且合理目录对内容进行组织,不止对SEO友好,同时也对有利于用户访问,能够明显提升用户在页面上的停留时间。同时也有利于SEO提升内容收录速度,增加核心关键词权重和排名。
基于以上原因,我们可以发现喜马拉雅在PC站和M站,都采用了3+2(三套主要的分类目录+两套辅助分类目录)的形式,设计了五套不同维度的内容分类目录结构来做SEO的信息整理。
喜马拉雅的三套主要分类目录是:
分类
分类是绝大多数内容站点SEO都会首先想到的目录逻辑。
在喜马拉雅,分类是他们构建、组织所有声音内容的底层目录结构,喜马拉雅的分类索引页面地址是https://www.ximalaya.com/category/
喜马拉雅的任意一条声音,必然归属于某一个唯一分类。而归属的分类,就决定了声音内容在数据存储和URL上的目录层级规则。
在喜马拉雅,为了让每一条声音,都有自己归属的分类,所以他的分类是做的很细。
目前喜马拉雅前台共有:
一级分类5个;
二级分类29个;
三级分类634个;
具体的分类细节,可以在通过下面这个PDF了解:
在喜马拉雅的底层内容设计上,一条声音,只要有分类即可,至于说是几级分类并不强制要求。这样设计分类规则的好处是大大降低了声音上传者或者运营人员选择、编辑、管理内容和分类对应关系的难度。
在PC端的三级分类页,喜马拉雅又为用户提供了两套快速筛选器,来对分类下的内容,再做更细颗粒度的拆分。
示例页面:https://www.ximalaya.com/youshengshu/reci235/
其中一套筛选器是下图中红框部分,按照特定属性来进行拆分。
另一套筛选器是蓝色部分,是按照时间和热门维度来进行拆分。
用户每选择一个筛选器,都生成了一个新的URL,这样就更有利于搜索引擎从时间、热门、属性等多种维度,收录该分类下的内容,并理解内容在站内的重要程度。
但是非常可惜的是,在页面关键信息上,喜马拉雅并未对这些不同的筛选器生成的页面,做个性化的页面Title和Description规则,导致这些聚合了大量高价值内容的页面,在搜索引擎上无法获得好的排名。
频道
频道在喜马拉雅的作用
分类,是一种数据结构,需要兼顾数据格式化整理和用户体验两个方面。而频道在喜马拉雅更为偏向服务于用户体验,帮助用户快速定位、筛选、框定某一类型内容的聚合方式。频道在喜马拉雅是以某一种主题(鬼故事、情感故事、侦探故事)或者某一种内容(小说、英语、历史)来对内容进行聚合的形式。同时,引入了频道属性,也对喜马拉雅的SEO有非常重要的作用。
喜马拉雅的频道,承载了音频类网站的==专辑+频道+TAG==的多重功能。
在内容结构设计上,频道和上面的分类有什么区别呢?
分类,是一种数据归类的规则,是一种数据库的概念,在喜马拉雅,每一条音频,都有且仅有一个分类。
而频道,是一种对音频重新组合的形式,一条音频,即可以不属于任何频道独立存在,也可以归属于多个频道。
比如《隋唐演义》,在喜马拉雅中分类归属于:
有声小说>有声书>历史
但是同时这套内容,用户通过下面这些频道都可以访问到:
- 有声书频道
- 权谋频道
- 历史频道
- 小说频道
- 单人频道
- 两晋隋唐频道
- 男频小说频道
- 影视频道
这样分类+频道双重的内容组织方法,即保证了底层数据库的逻辑清晰,也能让用户在前台筛选内容有较好的体验。
喜马拉雅频道设计特点
首先,在喜马拉雅PC首页,可以看到一个频道汇总页的入口https://www.ximalaya.com/channel/7/
进入频道汇总页后,可以看到喜马拉雅在前台一共展示了26个一级频道和302个二级频道。
那么喜马拉雅是不是就只有这302个频道呢?稍微研究一下我们就发现情况并不是这样的
频道的URL地址格式为:
https://www.ximalaya.com/channel/0-【数字】/
用SITE语句在谷歌查询,这个URL在谷歌的收录超过11万条,也就意味着,喜马拉雅的有效频道数量超过了11万条。
这么多频道,每一个频道,都是一个核心关键词,通过这个关键词,将站内所有和该关键词内容有关的音频在页面上进行聚合并定期更新。这样的页面的在SEO上的权重和引流效果是非常出色的。
而且通过观察这些频道URL的搜索结果来看,对于热门频道的简介,有明显的人工维护痕迹。
人工维护主要是在关于频道的简介部分,人工维护频道简介,可以丰富频道内容,加入更多关键词曝光机会,从而在搜索结果页和话题页,给用户更好的浏览体验,也有利于对应页面的排名提升。
不过从已有频道的维护结果来看,喜马拉雅的频道内容维护团队,在维护的频道信息的时候,缺乏SEO思路,仅仅从用户体验层面出发,为用户提供频道简介相关内容。如果喜马拉雅能够在频道维护的SOP中,加入部分SEO的基础要求和培训,势必对喜马拉雅的频道页在搜索引擎上提升排名是非常有效,高投入产出比的一个优化策略。
喜马拉雅频道名称的来源:
如此数量庞大的频道数量,不太可能由运营人员一一手工建立。那么这些频道名称是来自于哪里呢?合理的推测,频道名称数据应该是运营创建+用户审核创建的机制来获取。
运营创建频道:根据即时热点,创建话题并筛选内容呈现。运营创建的话题,应该又可以细分为两种,一种是可以进入话题频道展示的的话题,一种是仅供聚合内容和搜索引擎展示的聚合话题。
用户创建频道:应该是来源于喜马拉雅的站内搜索器。当一个关键词在站内被用户多次搜索,且这个关键词经运营审核认为不存在内容违规行为,就可以在后台将这个搜索关键词升格为频道。这样只要用户在站内有源源不断的搜索动作,那么喜马拉雅就等于有了源源不断的频道页面可供SEO使用。
同时,我们也可以合理推测,对于因为用户搜索行为自动生成的频道,运营人员会根据频道被访问的热度等属性筛选后定期维护,从中选择高质量的频道,为其添加频道相关说明文字,或者将其加入到前台展示的频道列表中,来提升频道在搜索引擎上的权重以及用户的浏览体验。
排行榜
如上所述,喜马拉雅用分类解决了信息结构化的问题,用频道解决了信息组织和SEO关键词丰富度的问题。但是对于一个每天都有大量新增内容产出的TOP内容平台,如何进一步加快新内容的抓取和排名问题呢?
新内容的收录,很多人第一时间就会想到通过百度的快速收录工具API接口进行提交,但是这个权限并不是所有站点都可以申请得到的,同时该方法的时效性在实际操作过程中,并不够理想。
因此解决新内容收录的时候,采用独立的排行榜页面是一个不错的选择。合理的构建排行榜逻辑,一方面可以加快新内容的收录速度,另外也能为站内有时效性的顶流内容,搭建站内权重传递路径,提升内容排名效果。
喜马拉雅针对新品内容的排行榜地址如下:
https://www.ximalaya.com/top/new/
在这地址下,喜马拉雅又将新品内容进一步细分为有声书、相声评书、儿童、人文、历史、音乐、个人成长、外语、娱乐、情感生活、商业财经、头条、健康养生、广播剧、戏曲、科技、旅游、影视、时尚生活、汽车、二次元、少儿素养、教育培训、播客、职场等新品排行榜。每个排行榜展示新品最热的TOP100的内容。
新品榜单产品设计,达成了如下效果:
- 为新品热门内容,丰富了蜘蛛入口,让搜索引擎收录更快;
- 同时也起到了内部权重传递的作用,让新上线的高品质内容,在搜索引擎端更短时间积累更高权重;
- 新品榜单也可以引导用户更多的访问新品内容页面,从而提升内容消费时长;
但是在分析喜马拉雅的排行榜产品设计的时候,也看到了该产品和上面提到的分类有类似的SEO缺陷,喜马拉雅并未对不同的排行榜页面提供独特、有价值的Title和Description规则,非常可惜。
从分类和排行榜页面的现状来看,喜马拉雅的SEO人员,应给没有参与到企业所有的WEB产品设计工作中去。导致有很多产品,在设计的时候,产品经理只考虑了对用户的体验交付,而没有考虑对搜索引擎的体验交互,白白损失了大量的免费流量。
喜马拉雅的两套辅助内容组织逻辑
喜马拉雅除了使用以上三种内容组织逻辑外,还有两种辅助方式,用于组织内容和获取SEO流量。
将内容以用户聚合
在喜马拉雅,只要是注册用户,不管是发布内容的主播,还是消费内容的用户,都会被喜马拉雅分配到一个带有主播拼音字母的URL,这里会汇集该用户在喜马拉雅平台简介、发布声音,以及创建专辑列表。
示例:https://m.ximalaya.com/zhubo/81878954/
这个产品设计,在SEO端,主要可以实现两方面的目的:
- 提供了又一种内容聚合的模式,通过用户个人Profile页,来为声音和专辑提供内链权重传递;
- 如果了解过早期的人人,微博,现在的领英、B站就会知道,人名(网名)SEO一直以来,都是网站引流非常重要的一环。喜马拉雅坐拥这么多注册用户,以及这些用户和站内内容发生互动的数据,对获得更好的人名(网名)SEO具有天然的加分优势。
以用户搜索行为聚合
这里的搜索,是指用户在搜索框中,输入任何内容进行查询后,就会生成的一个URL,这个URL页面会展示包含用户输入关键词的专辑、声音、主播、广播的内容的聚合。
它的URL格式是:
https://www.ximalaya.com/search/[关键词]/
这个搜索结果,当页面积累了一定的访问热度后,就有可能被转化为上面提到的频道。
通过替换上面URL中的关键词部分,可以发现无论替换的关键词是什么,系统都能够几乎实时的生成一个有关这个关键词内容的聚合页面。
但是这些页面一定不会在生成后,就提交给搜索引擎,我相信这里的用户搜索关键词,在喜马拉雅后台,一定要经过至少一次的审核机制,在确认搜索关键词不属于违禁词后,该搜索结果生成的页面,才会在网站前端出现,供搜索引擎抓取收录。
最后,我们可以来看一个例子,复习上面所提到的各种目录结构。我们以岳云鹏这个关键词来说,在喜马拉雅就有如下这几种典型的内容聚合索引页面。
将岳云鹏视作主播,则他在喜马拉雅的主播首页地址是:
https://www.ximalaya.com/zhubo/1412883/
将岳云鹏视作分类,地址为:
https://www.ximalaya.com/xiangsheng/reci1478/
将岳云鹏视作频道,地址为:
https://www.ximalaya.com/channel/9-1681/
将岳云鹏视作搜索关键词,地址为:
https://www.ximalaya.com/search/岳云鹏/
而这些页面,从各个维度上将岳云鹏相关的内容进行整合,索引,分类。从页面内容质量、内链权重、信息更新时效性等方面,都建立了一个丰富、立体的网状结构。这样的页面,相较于岳云鹏某一个专辑或一个相声节目的页面来说,在搜索引擎上,权重更高,排名更靠前,更容易子啊用户搜索岳云鹏相关关键词的时候,被优先展示出来。
以上,就是今天我对于喜马拉雅在内容组织上的SEO拆解的全部内容。通过今天的拆解,我们可以看到,大型网站在做SEO的时候,不是说站点积累了大量的内容,即可获得很好的流量。
对于大型站点的SEO,将基础的积累流量规范化提交给搜索引擎进行收录,仅仅是SEO优化的第一步。
最后真正能够给站点来带更多流量的,是如何将基础声音内容合理的二次、三次甚至四次梳理并整合,汇总生成的页面带来的价值。
在这个过程中,除了需要通晓SEO的规则外,也要求SEO人员对整个网站产品、研发相关信息足够熟悉。在信息聚合的时候,需要考虑到页面关键词和页面内容的匹配,页面内容的时效性和信息安全,以及服务器的开销和响应效率的均衡等方面的,最终的SEO效果,会受到上述所有的综合影响。
而且今天,我仅仅是从内容结构上进行了分析和梳理,这只是SEO中的一小部分,对于页面内容的生成、组织逻辑优化,URL和导航的设计,PC站和M站的针对性优化,HTML代码的重写,用户转化流程优化等课题,有机会再找例子给大家做详细说明。
在这次拆解喜马拉雅SEO的过程中,也看到了一些喜马拉雅在SEO方面做的不够好,可以优化的内容,后续我将专门再起一篇内容来分享。
感谢阅读!
评论
发表评论