资讯类app用户热度及资讯类型分析

日期: 栏目:篮球新闻 浏览:61 评论:0

  随着今日头条的崛起,资讯类app已经成为各巨头争夺流量入口的又一主要阵地。除了百度和阿里文娱旗下UC浏览器分别推出了百度百家和UC头条,腾讯也在发布天天快报后投资了趣头条,而趣头条也在18年9月赴美上市。这些资讯类app有一个共同的特点,他们都是基于机器学习和数据挖掘的资讯推荐类产品,为用户推荐其感兴趣的信息。

  通过百度指数搜索“今日头条”、“百度百家”、“趣头条”以及“UC头条”四个关键字,我们可以发现今日头条搜索指数和搜索趋势均远高于其他几款产品,说明其产品热度一直较高,受到了更多人的关注。近一个月四款app搜索热度2011年以来四款app索索热度趋势

  趣头条近期的发展速度也很迅猛,尤其是9月15日前后,其热度超过了今日头条,可能是因为上市新闻引起了大家的关注。相对而言,百度百家和UC头条则一直不温不火,热度一直不高。

  结合以上背景,本文主要对以下几个问题进行探索。

  不同app之间横向对比:比较不同app的用户热度,即活跃度(从阅读量、评论量、资讯量及作者量等角度分析)不同app的资讯类型特点(比较阅读量最高、资讯量最多的资讯类型都是哪些,不同app中主要资讯内容是否有差异)

  以今日头条为例,不同时段用户热度的纵向对比:不同周期的用户热度趋势特点(一周中,不同周期用户浏览行为和作者产出特点的差异)不同时刻的用户热度趋势特点(一天中,不同时刻用户浏览行为和作者产出特点的差异)

  目的:分析不同app用户浏览以及内容创作者产出特点,为用户浏览资讯以及创作者发布资讯提供建议。

  本文数据抓#取于“自媒咖”,抓#取方式是利用某数据抓#取工具在每晚十二点后开始抓#取前两天的数据。最终抓#取了四款app的文章相关信息,其资讯发布时间范围在2018-10-14至2018-10-21日之间。自媒咖

  本文数据分析所使用到的工具:Mysql(数据前期的预处理:如数据整合、去重等操作)Python (数据进一步清洗及分析:如描述性统计以及可视化等)

  因为考虑到如果数据抓#取时间距离资讯发布时间太近时,资讯的阅读量等信息会和较早发布的资讯产生较明显差异。因此为尽量避免这种因素的影响,我们选取数据抓#取时间与资讯发布时间相隔一天以上的数据进行分析,例如在10月22日凌晨抓#取前两日(20日和21日)的数据,取20日的数据进行分析。

  数据量:本文通过Mysql进行数据预处理,最终筛选出122119条数据,并利用Python进行数据处理和分析。

  字段释义:因篇幅限制,(5.1部分)Mysql中数据处理过程请详见另一篇,本文主要介绍Python进行数据分析部分起名困难症用户:资讯类app用户热度及资讯类型分析-Mysql数据预处理部分

  5.1 利用Mysql进行数据前期处理

  5.1.1 先将抓#取的数据导入到Mysql

  5.1.2 数据预处理

  如将时间数据转为时间类型、提取资讯类型等,并创建表存储数据

  5.1.3 利用时间间隔选取数据,并整合数据选取数据抓#取时间与资讯发布时间相隔一天以上的数据(因每日采集数据量有限,而趣头条数据量较大,故只能抓#取采集时间前一天的部分数据。所以我们仅利用其数据分析趣头条资讯的类型特点,但在进行app数据横向对比时将剔除这部分数据);重复数据处理;导出为csv文件。

  5.2 利用Python进行数据清洗

  5.2.1导入相关包及数据

  5.2.2查看数据

  

  pub_date及ex_date只需要保留到天;无缺失数据,说明在前期数据处理中缺失值已经被剔除。

  各资讯间阅读量及评论量差异较大,大多数(约75%以上)的资讯评论量为零,阅读量不足1000;阅读量和评论量均无负值,但评论量最多的资讯有近4万条评论,需注意异常值。

  

  对各类resource的num_read和num_comment数据进行整理,剔除三个标准差外的数据,并观察其数据分布。

  今日头条上资讯的阅读量和评论量均较高,UC头条次之,百度百家的评论数量数据可能采集有缺失,导致为空值。资讯阅读量及评论量的数据波动较明显,说明每个平台都会存在一定的“爆文”数量,但大多数资讯的阅读和评论量不高。

  5.2.3数据清洗

  1.提取pub_date中的日期和时刻数据

  

  2.去除重复值

  3.resource中数据进行替换为资讯来源平台

  

  4.选取“今日头条”,“百度百家”,“UC头条”数据进行分析

  

  虽然只采集了趣头条部分时间段的数据,但是其发文量已经远超其他类别app的数据量。在本文的研究中,仅利用趣头条的数据来分析其资讯类型特点,不进行用户热度的分析。

  根据问题,进行数据分析。

  6.1不同app之间横向对比用户热度及资讯特点

  6.1.1不同app的用户热度

  通过分析不同app的周资讯量、周作者量、平均每篇资讯的阅读量及评论量,来对比其用户参与度的差异。

  

  今日头条的内容创作者更多;百度百家上创作者数量及产出效率均较低;UC头条上创作者显得更高产,平均每位创作者每周发布近三篇资讯。

  

  虽然UC头条的资讯量更多,但今日头条的平均每篇资讯的阅读量及评论量会更高。此外,在今日头条上的资讯平均每100个阅读量就会有0.2条评论,而UC头条上仅有0.08条评论,这说明今日头条上的用户参与度可能更高。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  6.1.2不同app的资讯特点

  不同app上资讯量(即发文量)、平均阅读量以及平均评论量较多的资讯类型。

  首先计算不同app上各类资讯的周阅读量、周评论量、周发文量,以及平均每篇资讯的阅读量和评论量。

  今日头条

  用同样的方法,得到“趣头条”,“百度百家”,“UC头条”的相关指标:趣头条百度百家UC头条

  可视化各app资讯平台发文量前十二资讯类型

  

  对这四款app发文量Top12的资讯类型进行分析:

  1. 这四款app上发文量最多的资讯类型基本都是娱乐类资讯,今日头条和趣头条娱乐类资讯明显更多,UC头条娱乐、体育、科技咨询量较多,而百度百家各类资讯的发文量较为平均。

  2. 发文量较多的资讯类别,其资讯平均阅读量不一定多,而且不同资讯平台上平均阅读量最多的资讯类型也有差异。今日头条上“国际”、“体育”类资讯用户关注量较高,趣头条及百度百家分别为“热点”、“体育”类资讯较受用户关注,UC头条上则为发文量最多的“娱乐”类资讯更受用户关注。

  从平均阅读量和平均评论量两个角度看:

  与发文量的结果进行对比,平均阅读量高的资讯类型发文量不一定多。例如今日头条中的“小说”类型,可能其发文数量不多,但会引起读者反复的点击或者阅读。

  对比不同app资讯平台,今日头条平均评论量Top12资讯类型的平均阅读量及平均评论量都很高,说明其用户参与度较高。

  

  6.2今日头条不同时段对比用户热度

  6.2.1不同周期的用户热度

  通过分析不同周期发文量、周作者量、平均每篇资讯的阅读量及评论量,来对比其用户参与度的差异。

  

  

  通过分析不同周期阅读量及评论量的描述统计性信息,我们发现周期间确实存在较大差异,但没有明显的数据异常情况。

  

  一周中,几乎所有指标在周一达到最低值,说明周一作者发布内容或用户浏览资讯的意愿均较低;资讯量一般周一、周二较低,这也和内容创作者在这两天也较少发布新资讯相符合; 总阅读量在周四达到峰值,但平均阅读量在周二达到峰值,这可能是因为相对于阅读量的降幅,资讯量的降幅更大;总评论量以及人均评论量在周五均达到峰值,可能是因为周五临近周末,大家更愿意刷手机浏览信息并参与话题讨论。

  6.2.2不同时刻的用户热度

  通过分析不同时刻发文量、周作者量、平均每篇资讯的阅读量及评论量,来对比其用户参与度的差异。

  

  凌晨1点至5点,发布资讯量以及作者量均较低,但是在此时段所发布资讯的平均阅读量以及评论量(尤其是凌晨2、3点)都很高,这也有可能是因为某几篇资讯的阅读量和评论量异常拉高所致(此时段文章量较少容易被异常数据影响);上午10点及11点资讯发布量最高,但在晚上12点以及凌晨6点,平均每位作者发布的资讯量较高,达1.5篇/人以上;剔除凌晨时段后,平均阅读量和平均评论量在下午6点和上午11点较高,说明人们在这两个时间段浏览资讯并参与话题的意愿较强。

  浏览者角度:今日头条和UC头条上资讯类型更加多样化,更易获取除了娱乐资讯外的资讯;趣头条和今日头条上内容创作者和资讯量更多,可以提供更多内容以便浏览。

  创作者角度:在每天早上11点或下午6点前后,浏览者浏览资讯并参与话题的意愿较强,因此如果在此时段前发布内容有利于增加自己文章的曝光量;不同周期浏览者浏览意愿不同,应尽可能选择在用户浏览意愿更强的时候发布资讯,如周四、周五及周六。

  可能存在的问题:数据抓#取的不稳定性导致可能有部分数据缺失;结果展示形式单一,应注意选择合适的方式进行数据可视化。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  下阶段分析及改进方向:寻找更稳定的数据抓#取工具或者数据源;探索更多维度:如内容创作者所发布资讯类型的多少与其阅读量、评论量之间是否有关系?即专注于某领域的内容创作者和涉猎范围较广的内容创作者,哪个更容易获取更多的流量;以及用户生命周期管理视角下,不同类型用户留存以及转化率情况等。大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!

  ps.本文最初也有受 @李少(四声) 启发,这篇如何将数据导入Mysql也较详细。李少(四声):用SQL实现分析今日头条&百度百家

  此外附上小编的CSDN学习园地,会记录和分享一些Python和数据库学习总结,希望多多交流。【MsSpark的博客】python学习_Numpy_Array - CSDN博客

资讯类app用户热度及资讯类型分析

资讯类app用户热度及资讯类型分析