加入收藏 | 设为首页 |

喜马拉雅fm-送给机器学习和数据科学入门者的5个学习主张(附链接)

海外新闻 时间: 浏览:308 次

来历:机器之心

本文约3200字,主张阅览8分钟

本文以初学者的视角,为相同想“入坑”的读者们供给了一些主张。

[ 导读 ]都说做一件作业最好的机遇便是“现在”,可是从何开端往往会难倒一大批人,更不用说是想要入门数据科学和机器学习的朋友了。本文是一篇科普扫盲文章,作者以初学者的视角,为相同想“入坑”的读者们供给了一些主张,还有一些能够获得的学习资源。

“我想学习机器学习和人工智能,该从哪开端呢?”

从这儿开端。


两年前,我开端在网上自学机器学习,并且经过 YouTube 和博客共享了我的学习进程。我并不知道我在做什么,在决议开端学习机器学习之前我从没写过代码。

当人们发现我的著作,他们通常会私信并发问,我不一定知道一切的答案,但我会尽量回复。人们最常问的问题是:“该从哪开端?”,其次是:“我需求多少数学根底?”

今日早上我就答复了一堆这样的问题。

有人告诉我他现已开端学习 Python 并计划学习机器学习了,但不知道下一步该做什么。

“我现已学习了 Python,下一步该做什么?”

我回复了一系列学习的进程,并且仿制到了这儿。假如你想成为一个机器学习从业者,却不知道怎样写代码的话,能够把本文当作一个纲要。我的学习风格是代码优先:先把代码运转起来,再根据需求学习理论、数学、核算以及概率等方面的东西,而不是一开端就学理论。

记住,开端学习机器学习你会面对许多阻止。别急,慢慢来,把这篇文章添加到收藏夹,以便随时参阅。

我倾向于运用 Python,由于我是从 Python 开端的,并且一直在继续运用它。你也能够用其他言语,但本文的一切进程都是根据 Python 的。

学习 Python、数据科学东西和机器学习概念

问问题的那些邮件作者们说他们现已学了一些 Python,几个月的时刻学习 Python 编程和不同的机器学习概念。这两部分常识你都会需求。

在学习 Python 编程的一起,操练运用 Jupyter 和 Anaconda 等数据科学东西。花几个小时来研讨一下,它们是用来做什么的以及为什么要运用它们。

  • 学习资源
  1. 人工智能要素 (https://www.elementsofai.com/)—人工智能和机器学习首要概念概述。
  2. Coursera 上的 Python 教程—(https://bit.ly/pythoneverybodycoursera) 从头学习 Python。
  3. 经过 freeCodeCamp 学习 Python (https://youtu.be/rfscVS0vtbw)—一个视频涵盖了 Python 一切首要概念。
  4. Corey Schafer 的 Anaconda 教程 (https://youtu.be/YJC6ldI3hWk)—一个视频学会 Anaconda(数据科学和机器学习需求的装备环境)。
  5. Dataquest 的新手 Jupyter Notebook 教程(https://www.dataquest.io/blog/jupyter-notebook-tutorial/)—一篇文章学会发动和运转 Jupyter Notebook。
  6. Corey Schafer 的 Jupyter Note 教程 (https://www.youtube.com/watch?喜马拉雅fm-送给机器学习和数据科学入门者的5个学习主张(附链接)v=HW29067qVWk)—一个视频学会运用 Jupyter Notebook。

学习经过 Pandas、Numpy 和 Matplotlib 进行数据剖析、操作和可视化

一旦你现已把握了一些 Python 技巧,就会开端想要学习怎么处理和操作数据,为了完成这一意图,你需求了解 Pandas、Numpy 和 Matplotlib。

Pandas 能够协助你处理二维数据。相似 Excel 文件里的信息表,包括行和列,这类数据被称为结构化数据。

Numpy 能够协助你进行数值核算。机器学习把你能想到的一切东西都转化成数字,从而在这些数字中寻觅形式。

Matplotlib 能够协助你制作图形和可视化数据。了解表格中的一堆数字对人类来说或许很困难。咱们更喜爱看到有一条线穿过的图。可视化能够更好地传达你的发现。

  • 学习资源
  1. Cousera 上的 Python 运用数据科学 (http://bit.ly/courseraDS)—开端打磨数据科学方向的 Python 技术。
  2. 10 分钟入门 pandas (https://pandas.pydata.org/pandas-docs/stable/gettingstarted/10min.html)—快速概览 pandas 库及其部分最有用的函数。
  3. Codebasics 的 Python pandas 教程 (https://youtu.be/CmorAWRsCAw)—该 YouTube 系列介绍了 pandas 的一切首要功用。
  4. freeCodeCamp 的 NumPy 教程 (https://youtu.be/QUT1VHiLmmI)—一个 YouTube 视频学会 NumPy。
  5. Sentdex 的 Matplotlib 教程 (https://www.youtube.com/watch?v=q7Bo_J8x_dw&list=PLQVvvaa0QuDfefDfXb9Yf0la1fPDKluPF)—YouTube 系列助你学会 Matplotlib 一切最有用的功用。

凭借 scikit-learn 学习机器学习

现在你现已把握了操作和可视化数据的技术,是时分学习在数据中寻觅形式了。scikit-learn 是一个 Python 库,它内置了许多有用的机器学习算法供你运用,它还供给了许多其他有用的函数来探求学习算法的学习效果。

要点在于学习都有什么样的机器学习问题,比方分类和回归,什么样的算法最适合处理这些问题。现在还不需求从头开端了解每个算法,先学习怎么运用它们。

  • 学习资源
  1. Data School 的根据 scikit-learn 的 Python 机器学习(https://www.youtube.com/watch?v=elojMnjn4kk&list=PL5-da3qGB5ICeMbQuqbbCOQWcS6OYBr5A)—一个 YouTube 播放列表教你 scikit-learn 的一切首要函数。
  2. Daniel Bourke 对探究性数据剖析的扼要介绍(https://towardsdatascience.com/a-gentle-introduction-to-exploratory-data-analysis-f11d843b8184)—把你在上述两个进程中学到的常识融合在一个项目中。供给代码和视频,助你开端第一个 Kaggle 比赛。
  3. Daniel Formosso 的根据 scikit-learn 的探究性数据剖析笔记(https://github.com/dformoso/sklearn-classification)—以上资源的更深化版别,附带了一个实践上述内容的端到端项目。

学习深度学习神经网络

深度学习和神经网络在没有太多结构的数据上最有用。二维数据虽然有结构,图画、视频、音频文件和自然言语文本也有,但不会太多。

小贴士:在大多数状况下,你会想对结构化数据运用一组决策树(随机森林或 XGBoost 之类的算法),而关于非结构化数据,你会想运用深度学习或搬迁学习(运用预先操练的神经网络并将其用于你的问题)。

你能够开端把这样的小贴士用一张条子记载,然后边学习边搜集这些信息。

  • 学习资源
  1. Cousera 上 Andrew Ng 的 deeplearning.ai (https://bit.ly/courseradl) (https://bit.ly/courseradl)—商业上最成功的从业者之一教学的深度学习课程。
  2. Jeremy Howard 的 fast.ai 深度学习课程 (https://course.fast.ai/) (https://bit.ly/courseradl)—工业界最好的实践者之一教学的深度学习实践操作办法。
  • 其他课程和书本

在学习进程中,最理想的状况是你能够用自己的小项目来操练所学的东西。这不用是杂乱的,需求改动国际的作业,但你能够说「我用 X 做了这个」。然后经过 github 或博客共享你的作业。github 用于展现你的代码,博客文章用于展现你怎么表达自己所做的作业。你应该为每个项目都发布一下这些内容。请求一份作业的最好办法是你现已做完了作业要求做的作业。共享你的作业是向未来的潜在雇主展现你才能的好办法。

在你了解了怎么运用不同的机器学习和深度学习结构喜马拉雅fm-送给机器学习和数据科学入门者的5个学习主张(附链接)之后,你能够测验经过从头开端构建它们来稳固你的常识。你不用总是在出产或从事机器学习时这样做,可是从内部了解作业是怎么作业的将有助于你树立自己的作业。

  • 学习资源
  1. Daniel Bourke 的怎么开端你自己的机器学习工程(https://towardsdatascience.com/how-to-start-your-own-machine-learning-projects-4872a41e4e9c)—开端你自己的工程或许会很难,这篇文章能够给你一些指引。
  2. Jeremy Howard 的 fast.ai 深度学习根底 (https://course.fast.ai/part2)—自上而下学习后,本课程将协助你从下往上填补空白。
  3. Andrew Trask 的 Grokking Deep Learning (https://amzn.to/2H497My)—这本书将教你怎么从头开端构建神经网络,以及为什么你应该知道怎么构建。
  4. Daniel Bourke 引荐的机器学习书本 (https://www.youtube.com/watch?v=7R08MPXxiFQ)—该 YouTube 视频整理了一些机器学习最佳书本。

答疑

每一步需求多长时刻?

你或许会花 6 个月或更长的时刻。别着急,学习新事物需求时刻。作为一名数据科学家或机器学习工程师,你正在培育的首要技术是怎么针对数据提出好的问题,然后运用你的东西来测验寻觅答案。

有时分你会觉得自己什么都没学到,乃至后退。疏忽它,不要以天为单位来衡量,看看你一年后有什么样的前进。

我在哪里能够学到这些技术?

我在上面列出了一些资源,它们都是在线的,并且大部分都是免费的,相似的资源还有许多。

DataCamp (http://bit.ly/datacampmrdbourke) 是一个很好学习网站。别的,我的 Machine Learning and Artificial Intelligence resources database(https://bit.ly/AIMLresources) 整理了免费和付费的学习材料。

记住,作为数据科学家或机器学习工程师,很大一部分作业是要处理问题。经过你的第一个作业探究这儿的每一个进程,并创立你自己的课程来协助学习。

假如你想知道一个自我引导的机器学习课程的比如是什么姿态的,看看我的 Self-Crea喜马拉雅fm-送给机器学习和数据科学入门者的5个学习主张(附链接)ted AI Masters Degree (h喜马拉雅fm-送给机器学习和数据科学入门者的5个学习主张(附链接)ttps://bit.ly/aimastersdegree)。这是我在曩昔 9 个月内从零编码变成机器学习工程师的进程。它不是完美的,可是我的实在阅历,因而你能够试试。

核算怎样办?数学怎样办?概率呢?

实践进程中你会学到这些东西的。先从代码开端。把代码运转起来,在运转代码之前,测验学习一切的核算、数学、概率常识,就像是在企图煮沸大海,它会让你畏缩。

假如代码不运转,核算、数学和概率都不重要。先运转起来,然后用你的研讨技巧来验证它是否正确。

证书?

证书很好,但你不是为了证书而学习,而是为了进步技术。不要和我犯相同的过错,不要以为证书越多代表技术越多,并不是这样的。经过上述课程和资源树立常识根底,然后经过自己的项目完善专业常识(这些是课程无法教授的常识)。

参阅链接:

https://towardsdatascience.com/5-beginner-friendly-steps-to-learn-machine-learning-and-data-science-with-python-bf69e211ade5

修改:黄继彦

校正演唱会:王欣

— 完 —

重视清华-青岛数据科学研讨院官方微信大众渠道“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。