2019年上半年微信发布了基于小程序页面的搜索,为了让我们更好地发现及理解小程序的页面,结合过去一段时间来我们遇到的各种情况,我们强烈建议各位开发者花一些宝贵的时间认真阅读本文。爬虫访问小程序内页面时,会携带特定的 user-agent "mpcrawler" 及场景值:1129
1. 小程序里跳转的页面(url)可被直接打开
小程序页面内的跳转url是我们爬虫发现页面的重要来源,且搜索引擎召回的结果页面 (url) 是必须能直接打开,不依赖上下文状态的。2. 页面跳转优先采用navigator组件
路由 API,包括 navigateTo
/ redirectTo
/ switchTab
/ navigateBack
/ reLaunch
建议使用 navigator 组件,若不得不使用API,可在爬虫访问时屏蔽针对点击设置的时间锁或变量锁。3. 清晰简洁的页面参数
结构清晰、简洁、参数有含义的 querystring
对抓取以及后续的分析都有很大帮助,但是将 JSON 数据作为参数的方式是比较糟糕的实现。4. 必要的时候才请求用户进行授权、登录、绑定手机号等
建议在必须的时候才要求用户授权(比如阅读文章可以匿名,而发表评论需要留名)。5. 我们不收录web-view
中的任何内容
我们暂时做不到这一点,长期来看,我们可能也做不到。6. 利用 sitemap
配置引导爬虫抓取,同时屏蔽无搜索价值的路径
7. 设置一个清晰的标题和页面缩略图
页面标题和缩略图对于我们理解页面和提高曝光转化有重要的作用。通过wx.setNavigationBarTitle
或 自定义转发内容onShareAppMessage
对页面的标题和缩略图设置,另外也为 video
、audio
组件补齐 poster
/poster-for-crawler
属性。8. 使用页面路径推送能力
可极大丰富微信可以收录的内容,进而提高小程序内容的曝光机会。请参考微信官方文档 《search.submitPages》。
- 浏览次数:12555 次浏览
- 发布日期:2020-03-05