数据科学是通过探索、预测和推断,从大量不同的数据集中得出有用的结论。

  • 探索包括识别信息中的模式。
  • 预测包括使用我们知道的信息对我们希望知道的值作出知情的猜测。
  • 推断包括量化我们确定性的程度: 我们在数据中发现的模式是否也会出现在新的观测中?我们的预测有多准确?
  • 我们主要的探索工具是可视化和描述统计学,预测是机器学习和优化,推理是统计测试和模型。

统计学是数据科学的核心组成部分,因为统计学研究如何在不完全信息的基础上得出可靠的结论。计算是一个核心组成部分,因为编程允许我们将分析技术应用于现实世界中出现的大量不同的数据集: 不仅仅是数字,还有文本、图像、视频和传感器读数。数据科学就是所有这些东西,但是由于应用的缘故,它不仅仅是各个部分的总和。通过了解一个特定的领域(比如量化交易),数据科学家学会对他们的数据提出适当的问题,并正确地解释我们的推理和计算工具提供的答案。