浏览器采集公众号文章的方案有哪些?采集系统构成有哪些?

  在公众号平台上发布的文章,很多是从其他人那里采集过来的。大家知道浏览器采集公众号文章的方案有哪些吗?还有,采集系统的构成有哪些呢?今天就跟拓途数据小编一起来了解一下吧。

   浏览器采集公众号文章的方案

   方案一:基于搜狗入口

   在网上能搜索到的公众号文章采集相关的信息来看来看,这是最多、最直接、也是最简单的一种方案。

浏览器采集公众号文章

   一般流程是:

   搜狗微信搜索入口进行公众号搜索

   选取公众号进入公众号历史文章列表

   对文章内容进行解析入库

   采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会出现验证码。直接采用一般的脚本采集是无法拿到验证码的。这里可以使用无头浏览器来进行访问,通过对接打码平台识别验证码。无头浏览器可采用selenium。

   即便采用无头浏览器同样存在问题:

   效率低下(实际上就是在跑一个完整的浏览器来模拟人类操作)

   网页资源浏览器加载难以控制,脚本对浏览器加载很难控制

   验证码识别也无法做到100%,中途很可能会打断抓取流程

   如果坚持使用搜狗入口并想进行完美采集的话只有增加代理IP。顺便说一句,公开免费的IP地址就别想了,非常不稳定,而且基本都被微信给封了。

   除了面临搜狗/微信的反爬虫机制之外,采用此方案还有其他的缺点:

   无法获得阅读数、点赞数等用于评估文章质量的关键信息

   无法及时获得已经发布公众号文章,只能作定期的重复爬取

   只能获得最近十条裙发文章

   方案二:网页微信抓包分析

   在被微信反爬虫虐了很长时间之后,和同事大脑风暴寻找新的微信公众号文章爬取方案。就分析有哪些能获得数据的入口。模糊记得网页微信是有公众号文章阅读功能的,正好我曾把玩过一段时间个人微信机器人,主要使用的是ItChat这个Python包。它实现的原理就是对网页微信进行抓包分析,汇总成个人微信接口,目标就是所有网页微信能实现的功能它都能实现。。所以就有了一个初步的方案——通过ItChat让微信公众号文章自己推送过来。快下班的时候和同事提了一下,他也挺感兴趣,第二天就实现出来了验证代码(ItChat实现相应功能代码非常简短,内容解析部分之前就做了,可以直接用)。

   这种方案的主要流程是:

   服务器端通过ItChat登录网页微信

   当公众号发布新文章推送的时候,会被服务端截获进行后续的解析入库

   这种方案的优点是:

   基本零间隔获取已经发布的公众号文章

   能获取点赞数、阅读数

   只需手机微信保持登陆,不用其他操作

   当然缺点也是有的:

   需要一台长期联网的手机

   手机微信不能主动退出,或长时间掉线

   采集系统由以下几部分组成:

  1、一个微信客户端:可以是一台手机安装了微信的app,或者是用电脑中的安卓模拟器。经过实测ios的微信客户端在批量采集过程中崩溃率高于安卓系统。为了降低成本,我使用的是安卓模拟器。

  2、一个微信个人号:为了采集内容不仅需要微信客户端,还要有一个微信个人号专门用于采集,因为这个微信号就干不了其它事情了。

3、本地代理服务器系统:目前使用的方法是通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器上。具体安装设置方法在后面详细介绍。

 

浏览器采集公众号文章

  4、文章列表分析与入库系统:我用的是php语言编写的,后文将详细介绍如何分析文章列表和建立采集队列实现批量采集内容。

看完了上文拓途数据小编的介绍,相信大家对浏览器采集公众号文章的方案有哪些以及采集系统的构成有一些了解了。公众号平台上要经常发布一些文章,使用采集系统进行采集,能更加方便快捷。

更多资讯知识点可持续关注,后续还有分析公众号数据工具有哪些、微信公众号原创文章统计、关于微信公众号原创文章怎样统计、如何批量导出微信文件、什么工具可以批量导出微信数据文件等知识点。

 

 


请使用浏览器的分享功能分享到微信等