案例|虎扑社区用户行为分析

  • 时间:
  • 浏览:0

声明:本文来自于微信公众号 Crossin的编程教室(ID:crossincode),作者:Crossin先生,授权站长之家转载发布。

前阵子,两根绳子 微博成功引起了我的注意:

没想到你竟是原先的虎扑!

正好他们都他们都也在做网站的数据分析案例,不如就用 Python 来分析下,虎扑你你你这个直男论坛到底是怎么才能 才能 的?

数据来源    

你你这个案例他们都他们都有2个月前时会计划了,好多好多 数据是原先分发的。

时间:2019.3.16-2019.6.22

(虎扑论坛只显示近有还还有一个 月的帖子)

数据:

板块内容:共 101.4w 个帖子的概要数据

帖子内容:回复数大于 3000,浏览数大于 5w 的 4.4w 个帖子

用户页面:29.9w(删剪帖子数据中发帖回帖用户),其中 10w 有效数据(剩余 17.6w 未填写,1.4w 填地球)

说明一下,他们都他们都这里可能获取到虎扑的删剪数据,但作为有还还有一个 抽样统计可能足够。其中帖子的删剪内容可能请求量很大,他们都他们都就选取了其中回复和浏览都比较高的那次责帖子作为分析样本。

接下来就他们都他们都他们都来看一看删剪的数据状况:

板块

觉得 虎扑名义上是个篮球论坛,但步行街(无主题闲聊区)的帖子发生了半壁江山。对比之下很悲凉的是中国足球论坛,基本没啥话题。

觉得 主题数不如步行街,但看平均回帖数,篮球论坛还是名副觉得 。

发帖

看每天日间发帖时间的分布,有还还有一个 高峰:上午 10 点(上班摸鱼)和晚上 21 点(吃过饭躺床上)。上午高峰还有个原困,假使 NBA比赛时会你你这个时间段转播的。

这是 3 个月来每天发帖总数的变化趋势,看得出在稳步上升。知道曲线上为何会有定期的波峰吗?通常时会精彩比赛场次的日子。图上 3 个峰值的日子分别对应:火箭vs勇士、猛龙vs勇士、勇士vs猛龙 三场比赛。

热门帖子的浏览与回帖数分布。还不必 看出有还还有一个 大问题:浏览量大的贴,回帖数通常也很高;但回帖多的帖就不必说时会有高浏览量(高回帖低浏览的基本时会抽奖贴)。

用户

尽管有一半以上的用户不出在资料里选取性别,但从填写的这次责用户来看,直男论坛实锤没跑了。

这是一张声望> 300000 的用户分布散点图(在交互版本上会看得更直观,文末有地址),比较突出的是 张佳玮·信陵(声望最高)、视频综合站(发帖最多)

而从这张注册/在线时长的用户分布图还不必 否都看,“视频综合站”的在线时长却是很少的,可见这应该时会有还还有一个 真人号。

从用户注册时间上来看,每年的新增用户时会上涨,2014 和 2017 年是虎扑增长较快的两年。

另外他们都他们都统计了用户声望和等级的前 3000 排行,声望最高:张佳玮·信陵,等级最高:登等瞪等凳。图略,可详见动态图表演示页面。

地区

东部和南部沿海省市 JRs 的数量比较多,另外假使 北京四川

全球范围来看,美国要远高于某些国外地区。(这里为了国外区域显示效果而降低了颜色范围,实际美国的用户和国内差了 2 个数量级)

各地区用户的平均在线时长,上海 JRs 最能肝。不过,平均数是可能被某些个别用户把数据拉高的,好多好多 他们都他们都还加了中位数的统计,还不必 都看湖南的 233 是最高。

等级中位数,又是湖南第一。

声望中位数,还是湖南

发帖中位数,依然是湖南……

回帖中位数,不必是我不好,他们都他们都猜到是哪里了吧?

词云

最后,他们都他们都来看下虎扑 JRs 这有还还有一个 月的帖子中频率最高的词汇是哪几种(可点击查看大图):

项目介绍

回到技术层面,关于你你这个项目的实现,简单说下思路:

项目思路

  1. 分析虎扑论坛页面,评价可获取数据,选取分析目标;

  2. 使用了 requests 和 scrapy 抓取相应数据, 并使用 pymongo 保存;

  3. 使用可视化工具 pyecharts,对数据进行可视化处理。

  4. 分发分析。

运行环境

  • python 3.7

  • windows 10

  • jupyter notebook

运行依赖包

  • requests

  • pyecharts

  • pymongo

  • scrapy

  • jieba

  • wordcloud

关于项目的删剪说明,他们都他们都放到了开发文档里,连同交互演示页面一起去提交在了 github 上。还要源码的同学可在公众号(Crossin的编程教室)里回复关键字 虎扑

原始数据可能较大,不出放到项目中,参与“码上行动”的同学可能你要 拿来练习数据分析,还不必 在群里问助教索要。

查看交互演示页面也可把此地址克隆到浏览器里访问,这是github在线渲染HTML页面的功能 (数据量大,在线加载会不得劲慢,手机流量慎入):

https://htmlpreview.github.io/?

https://raw.githubusercontent.com/spiderbeg/hupu_data/master/hupu_html/one_piece_plates.html 

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请