大约三年前,我作为商业智能分析师在Excel电子表格中执行大部分分析工作。 我长期以来一直对学习编码感兴趣,之前曾经工作了几年,用PHP和HTML构建网站。随着时间的推移,我对数据科学产生了浓厚的兴趣,并决定研究一些在线课程,学习该领域的一些技能。
一旦我开始,我就爱上了这个领域,并且已经培养成数据科学的角色。我很幸运能够在日常工作中使用python来执行复杂的分析,并构建和部署机器学习模型。我在全职工作期间实现了这一目标,成本非常低(我估计这个成本不到500美元),而且没有在该领域接受任何正规教育。
我坚信通过实践方法学习,并且在过去几年中,通过反复试验发现了一些适合我学习风格的奇妙资源。我想在这里分享我学习数据科学的五大免费资源。
1)Kaggle(https://www.kaggle.com/)
当大多数人想到Kaggle时,通常会想到的是高利润,可能是具有高价值奖品的恐吓竞赛。然而,Kaggle远不止于此,我发现它是学习数据科学的绝佳工具。以下是Kaggle作为一个很好的资源的3个原因。
- 数据集 Kaggle拥有大量免费数据集,其中包含我能想到的几乎所有类型的数据。这些可用于练习数据探索,机器学习或深度学习技能。有一些众所周知的高度预测数据集,例如著名的泰坦尼克号生存数据,这些数据非常适合实施数据清理,算法优化和特征工程。
- 内核 Kaggle有一个很棒的社区,并且作为Kaggle社区成员的一部分,定期发布内核(基本上是浏览器托管的jupyter笔记本),介绍他们的数据问题方法。阅读这些内容并进行实验可以真正帮助您拓展对数据科学的理解。除此之外,内核还允许您在浏览器中运行Jupyter笔记本,因此您可以练习python数据分析和机器学习,而无需在计算机上本地设置环境。
- 课程 Kaggle还有一个专门用于免费课程的网站部分。其中包括对python,机器学习,数据可视化等的介绍。它几乎涵盖了开始学习数据科学所需的基础知识。
2)Dataquest(https://www.dataquest.io/dashboard)
现在我非常喜欢那些主要由浏览器编码组成的课程。Dataquest是迄今为止我在过去几年中所采取的最佳方法。从技术上讲,它并非完全免费。免费计划为您提供25个免费任务,包括python编程初学者课程和Kaggle比赛课程。要访问完整的数据科学课程,您可以按月或按年订阅(我在6个月内使用晚上和周末完成课程,每周花费大约10-15个小时,每月订阅费用约250美元)。
图一 Dataquest上的学习环境示例
我非常喜欢学习方法和材料。它的全面之处在于它涵盖了python编程到中级,pandas,numpy,sci-kit学习库,Github和命令行。 它还在每个任务结束时指导项目,让您练习所学的技能。
3) Anaytics Vidhya (https://www.analyticsvidhya.com/)
像Kaggle一样,这个网站有许多不同的学习数据科学的领域。有一个很棒的博客,他们定期发布涵盖R和python的文章和教程。我已经完成了许多教程,它们既全面又易于理解。分析Vidhya还经常运行黑客马拉松,这使您可以访问数据集和业务问题,您可以应用所学的技能。它们在该领域也存在一些实践问题,这些问题包含相对简单的数据集,并且具有高度可访问性。作为机器学习的相对新手,我在贷款预测问题上排名前五。这里还有一些免费的学习途径,包括学习数据科学python的综合指南。
4)Chris Albon (https://chrisalbon.com/)
这个网站有很多非常简单的教程,从机器学习到统计到软件工程,几乎涵盖了数据科学的各个方面。由于易于扫描,我几乎每天都会参考这个网站来快速回答这些问题,我如何在Python中做到这一点?键入问题。 Chris还创建了一组解释机器学习中的关键概念的卡片,他通过网站以12美元的价格出售这些卡片,但他也经常在推特上发布这些卡片。 Demetri Pananos收集了所有这些并将它们放在他的github回购中。我发现这些是快速摄取密钥的一种非常有用的方法机器学习算法的数学和统计基础。
5)Fast.ai (http://www.fast.ai/)
是我遇到的最好的免费深度学习课程。这是一个为期七周的课程,完全没有广告,但确实需要一些以前的编码经验。它是通过一系列视频教授的,它还包括一组笔记本,其中包含材料中涵盖的所有代码,因此您可以轻松地尝试算法。 尽管如此,这门课程本质上非常实用,因为在讨论解决方案背后的数学之前,它涵盖了实际实施。
在过去的几年里,我使用了许多其他资源,但这些是我学到的最多的地方。 他们为我提供了良好的知识基础。现在我将很多这些新技能付诸实践,我仍然经常重访这些网站,以进一步增强我的理解,并在遇到问题时解决问题。