googleplaystore 数据分析

Google Play 前名为 Android Market，是一个由 google 为 Android 设备开发的在线应用程序商店。一个名为“Play Store”的应用程序会预载在允许使用 Google Play 的手机上，可以让用户去浏览、下载及购买在 Google Play 上的第三方应用程序。

一、提出问题

数据集大小：10.8 k * 13

（1）用户对于什么类型软件的关注比较高？

（2）应用商店软件质量？

二、理解数据

App --- 软件名称

Category --- 软件类型

Rating --- 对软件的评分

Reviews --- 用户评论数

Size --- 安装包大小

Installs --- 安装次数

Type --- 免费或付费

Price --- 价格

Content rating --- 内容分级

Genres --- 软件类型，和Category内容重复

Last updated --- 上次更新时间

Current Version --- 当前版本

Android Version --- 适用安卓版本

三、数据清洗过程

（1）安装画图包：pip install matplotlib

（2）Seaborn 是 Python 进行数据可视化分析的重要第三方包，它是在 matplotlib 的基础上进行了更高级的 API 封装，使得作图更加容易，图形更加漂亮。

安装画图包： pip install Seaborn

【报错】UnicodeDecodeError: 'utf-8' code can't decode bytes in position 16-17: invalid continuation byte

【解决】

（3）读取文件

1）csv文件方法一：

2）读取csv文件方法二：

【报错】OSError: Initializing from file failed

【解决】

数据清洗是数据分析工作中最耗时的一部分，要占去60%的时间。

「数据清洗」主要分成以下几个步骤：

（1）选择子集

只选择对数据分析有意义的字段，将无意义的字段隐藏掉。（尽量不删，保证数据的完整性）

由于 Category 和 Genres 中内容几乎一样，都描述的是APP的类型，故本次分析将Genres列删除。

（2）列名重命名

鉴于所选数据字段列名比较简单，不需要翻译成汉语

（3）删除重复值

【报错】SyntaxError: positional argument follows keyword argument

关键字参数位置参数python函数位置参数

（4）缺失值处理

python缺失值有3种：
1）Python内置的None值
2）在pandas中，将缺失值表示为NA，表示不可用not available。
3）对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。
后面出来数据，如果遇到错误：说什么float错误，那就是有缺失值，需要处理掉。所以，缺失值有3种：None，NA，NaN

缺失值处理的 4 种方法：
①通过人工手动补全
②删除缺失的数据
③用平均值代替缺失值
④用统计模型计算出的值去代替缺失值

（5）数据排序

1）重命名行名

（6）异常值处理

1）字符串转换为数值（浮点型）

2）通过条件判断筛选出数据

四、相关性分析

（1）建立测试集与训练集

（2）模型评估

（3）R平方

五、结论

（1）用户对于什么类型软件的关注比较高？

由结果及柱状图可以看出，家庭类的软件比较受欢迎，其次是游戏和工具型软件。

（2）应用商店软件质量（评分分类）？

相对来说，googleplaystore上的软件评分整体都比较高，说明用户对于该应用商店的软件都是乐于接受和使用的。

（3）软件评分和评论数

由图可以看出，评分较高的软件评论数相对比较多，用户对于自己满意的软件还是会发表自己的使用感受或者建议之类的。

（4）价格的描述统计信息

可以看出，googleplaystore 中大部分软件是免费的，只有相对较小一部分是收费的。

（5）软件评分及用户评论数的描述统计信息

【参考资料】