2024 年你不能忽视的 5 个数据科学技能
原文towardsdatascience.com/the-5-data-science-skills-you-cant-ignore-in-2024-ceba3ea7726chttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e969519f847b67e7f9149a037c46deb5.png来源DALL·E讲故事时间我的实习经历回到 2022 年我在柏林市中心一家繁忙的初创公司担任数据科学家实习生。我的日常充满了挑战那就是使用 BERT 开发并实施自然语言处理NLP模型和使用 Faster-RCNN 的计算机视觉模型。我的任务是提高公司现有模型的准确性我渴望对这些模型进行实验。新的视角在讨论我作为数据科学家成长的非正式会议中我的主管开始强调一些当时我觉得有点令人困惑的事情。他一直强调关注模型开发的生产方面的重要性而不仅仅是实验方面。他的话让我感到困惑。就我所知数据科学家的角色是理解业务需求、执行统计分析并找到最佳模型。还有什么更多的吗桥接生产差距这对我来说是个很大的启发。将“模型投入生产”的概念对我来说是新的。我在大学里没有学习过这个而且在 2022 年这肯定不是我的技能集的一部分。随着时间的推移情况开始变得清晰。我开始理解我的主管的意思以及为什么提升我的数据科学技能是至关重要的。这不仅仅关于找到最佳模型或执行统计分析这是确保这些模型能够有效地集成到公司的系统和工作流程中。这是我将我的工作从单纯的实验转变为能够推动商业价值的现实世界解决方案的关键。虽然我的实习仅专注于实验部分在自然语言处理和计算机视觉领域但我的主管的这些建议对我的职业发展非常重要。你好我的名字是Sara Nóbrega我是一名专注于 AI 工程的数据科学家。我拥有物理学硕士学位后来过渡到了令人兴奋的数据科学世界。我在这篇文档中写关于数据科学、人工智能以及这些领域的职业建议。如果你想了解更多请确保你订阅并**关注我**https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/780beb68284c16b659b6d2df71672b8f.png图片由 Dom Fou 在 Unsplash 提供事实是虽然大学和正规教育提供了一些基本技能但它们通常没有为学生提供公司所需的实际知识上个月2024 年 5 月我帮助某人选择他们的数据科学硕士学位课程并注意到缺乏专注于模型生产或甚至该主题介绍的课程。将模型投入生产是机器学习操作MLOps这一广泛主题的一部分。但 MLOps 只是其中一个例子还有许多其他关键技能和知识领域正规教育没有涵盖我将在本文中概述。例如云计算知识正变得越来越重要。随着越来越多的公司将运营转移到云端熟练掌握 AWS、Azure 或 Google Cloud 等云平台可以显著提高你部署和扩展机器学习模型的能力。学习如何利用这些平台的各种工具和服务可以简化你的工作流程并降低基础设施成本。当然你不需要掌握所有这些技能这取决于你的目标和你的偏好。但是通过扩展你的技能集超出传统教学的内容你可以成为一个更加多才多艺且更有价值的科学家。在这篇文章中我将讨论这些技能以及更多内容为你提供一份关于如何在 2024 年及以后保持领先的全面指南你为什么要关心这个问题技能演变几年前数据科学家的顶级技能包括 Python/R、机器学习、SQL、数据可视化和统计学。但数据科学是一个不断发展的领域2017 年所需的技能与 2024 年所需的技能有很大不同这是由于技术进步和就业市场变化的自然发展。人工智能的影响例如生成式人工智能GenAI和大型语言模型LLMs的近期繁荣以及www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2023-generative-AIs-breakout-year突显了对人工智能技能日益增长的需求。这是否意味着人工智能技能的需求会增加我会说是的。虽然对自然语言处理或大型语言模型人工智能的重要子集的深入专业知识可能不是数据科学职位所必需的但理解人工智能系统、它们对商业的影响以及它们创造价值的潜力正变得越来越对任何数据驱动型职业至关重要。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5e4ffa6388c641cca6eee4b6ef3c656d.pngAI 学习 | 来源DALL·E数据科学家角色的扩展角色重叠但我并不想成为一名机器学习工程师这对我也适用吗这是一个合理的问题。然而许多当前的数据科学家职位招聘启事都包含了与机器学习工程技能重叠的要求。虽然一些公司明确区分数据科学家、机器学习工程师和 MLOps 工程师但通常存在重叠。这很有道理对于公司来说拥有对各方面都有一定了解的员工是有益的这样可以确保不同角色之间的沟通和协作是有效的。职位招聘启事示例在下面的图片中你可以看到 LinkedIn2024 年 5 月上当前数据科学家职位的招聘启事这是我截图的。这个角色虽然是一个数据科学职位但重点非常集中在 NLP 和 GenAI 上。在这篇文章中我将讨论招聘启事中提到的关键技能。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3e12be539e585bb770dc1da4ae73132f.pngLinkedIn 上数据科学家职位招聘启事的示例2024 年 5 月| 图片由作者提供。还有更多。我注意到一个日益增长的趋势即越来越多的机器学习工程师和人工智能工程师职位正在增加。事实上据估计从 2023 年到 2027 年对 AI 和 ML 职位的需求将增长 40%这种转变在当前的职场市场中很明显公司通过招聘更多的机器学习/人工智能工程师来利用最近的 AI 突破。拥有数据科学背景且喜欢学习新技能的人可以适应任何职场市场的变化在这篇文章中我将概述五项关键技能这些技能可以帮助你在当今的职场市场中保持相关性。这些技能不仅会让你脱颖而出而且还能提供灵活性以便获取更多的工作机会对于每一项技能我将解释为什么这项技能是必要的数据科学家日常如何使用这项技能提供数据科学家如何应用这项技能的真实世界示例提出一些学习它的好方法 让我们开始吧https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ec663f207e0c1f8556ac295271ccc19e.png图片由Jan Tinneberg在Unsplash提供。深度学习为什么你需要这项技能深度学习已经革命了图像和语音识别、自动驾驶和预测分析等领域。它处理大量数据并揭示复杂模式的能力使它对现代数据科学家来说是不可或缺的。此外深度学习在许多尖端技术的前沿如生成对抗网络GANs和强化学习这些技术正在推动人工智能可能性的边界。这些进步不仅正在改变现有行业而且还在创造全新的行业从创意艺术到自主系统。随着行业继续采用深度学习技术能够设计和实施这些复杂模型的专业人员需求将呈指数级增长。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c172fd4e5111ed5fce2aa1c4f15f19d9.png深度学习 | 图片由作者提供。研究深度学习是获得本文中概述的下一组技能的关键步骤。掌握深度学习的基础为理解和实施高级机器学习和人工智能技术奠定了坚实的基础。数据科学家如何应用这项技能在许多方面数据科学家可以将深度学习技术应用于开发用于图像分类、预测、自然语言处理和异常检测等任务的复杂模型。现实世界案例假设你为一家金融公司工作。深度学习模型用于实时检测欺诈交易。通过分析交易模式和识别异常这些模型帮助金融机构预防欺诈并保护客户资产。如何学习这项技能在深入研究深度学习之前确保你对数学基础线性代数、微积分、概率和统计学有基本的了解。然后从深度学习的核心原理开始神经网络和反向传播。通过使用领先的深度学习框架TensorFlow、PyTorch获得实践经验。然后继续学习更复杂模型CNNs 及其架构。之后了解为序列数据RNNs、LSTMs 等设计的模型。一旦你对卷积神经网络CNNs和循环神经网络RNNs感到舒适你就可以探索更高级的主题生成对抗网络GANs和强化学习。人工智能和机器学习探索为什么你需要这项技能人工智能和机器学习正在重塑行业。人工智能技术的激增尤其是 NLP、LLMs 和 GenAI使得人工智能技能越来越有价值。理解这些技术的工作原理及其潜在应用对于最大化其在商业和技术领域的影响至关重要。人工智能正在并将继续在预测分析、自动化、异常检测、聊天机器人和智能系统等领域展现其自身。公司正在大力投资人工智能技术以寻找为消费者提供价值的新方法因此对在这些领域有技能的专业人员的需求激增数据科学家如何应用这项技能现在数据科学家可以使用人工智能的多种方式到 2024 年数据科学家正在使用人工智能来增强他们工作的各个方面。自动化机器学习AutoML简化了模型开发过程而高级自然语言处理NLP和计算机视觉应用则提供了对文本和图像数据的更深入见解并自动化了多项任务。在时间序列分析方面高级人工智能算法被应用于预测未来趋势提高了预测的准确性。AI 驱动的数据预处理和集成提高了数据质量和可访问性。可解释人工智能XAI增强了模型的可透明性并帮助人们理解决策是如何做出的。人工智能模型也被用来检测不符合预期行为的异常模式异常这在欺诈检测、网络安全和预测性维护中非常有用。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/11339ceae0aea4de1b564aaf50749f4e.png聊天机器人开发 | 图片由作者提供。真实世界案例自从人工智能热潮以来我看到的 AI 和机器学习的最明显应用之一是在聊天机器人和虚拟助手的开发中。这些 AI 驱动的工具使用NLP来理解和回应客户咨询提供全天候的支持和信息。例如许多公司已经将集成 AI 聊天机器人纳入他们的客户服务运营中以帮助回答常规问题。此外人工智能正在以新的方式被使用例如个性化的推荐系统、制造业的预测性维护和智能医疗系统这些系统能够分析患者数据以建议治疗方案。如何学习这项技能开始学习大型语言模型和生成人工智能GenAI可能会感到非常令人不知所措。我建议你保持简单。你不需要掌握所有模型、框架或技能。如果你想要专门从事其中之一例如成为一名 NLP 工程师那就继续前进吧。但如果你的目标是提升技能以保持在职场的相关性或满足你的好奇心那么在第一阶段拥有足够完成工作的知识应该已经绰绰有余了要开始你的 AI 和高级机器学习之旅你可以从涵盖基本概念的入门课程开始然后逐步积累知识。假设你对常见的机器学习模型线性回归和逻辑回归、随机森林、聚类算法等有扎实的知识你可以深入更复杂的话题。探索自然语言处理NLP这是人工智能的一个关键组成部分专注于计算机与人类之间的交互。开始学习文本处理、文本分类和词嵌入。对深度学习有一个良好的理解这就是为什么我把这个技能作为文章中的第一个技能概述。然后你可以深入研究大型语言模型LLMs。了解变压器、BERT 和 GPT以及它们的训练和微调。自从人工智能AI热潮以来关于这个主题的免费在线内容数量也急剧增加云计算基础为什么你需要现在就掌握这项技能了解如何使用云平台可以让数据科学家使用强大的基础设施这降低了存储和处理数据的成本和难度。云计算提供了可扩展和灵活的资源非常适合处理大数据集和复杂的计算。此外它还促进了协作并加快了模型部署让你能更多地专注于分析而不是管理硬件。数据科学家如何应用这项技能数据科学家使用云平台来存储数据将所有数据存储在一个地方无需担心存储限制。处理数据使用强大的工具快速清理和分析你的数据。实验模型轻松测试不同的机器学习模型。跟踪实验记录所有实验及其结果。部署模型无缝地将模型投入实际应用。协作与团队一起在相同的数据和模型上工作。自动化工作流程为重复性任务设置自动流程。云服务促进了协作、可扩展性和高效资源管理使它们在现代数据科学项目中变得不可或缺实际案例医疗初创公司中的数据科学家可以使用云平台来构建和部署一个分析医学影像数据以检测糖尿病早期迹象的机器学习模型从而为患者提供更快、更准确的诊断。如何学习这项技能首先学习一个云平台。你不需要知道如何使用所有这些平台根据我的经验一旦你学会了如何使用一个平台你就可以轻松切换到另一个。公司更看重在任一单一平台上的实践经验。个人而言我开始学习微软 Azure。最著名的三个是亚马逊网络服务 AWS、Azure 和谷歌云平台GCP。机器学习模型部署https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5b0578f9d68ce9e5aea3590e02b61776.png来源DALL·E为什么你需要这项技能开发机器学习模型只是第一步。在生产环境中部署这些模型至关重要以提供实时预测并产生商业价值。部署熟练度确保模型可以扩展能够无缝集成到现有系统中并在各种条件下高效运行。这项技能对所有数据科学职位都是必需的吗不。但正如我们之前讨论的它通常与机器学习工程师的技能有重叠了解基础知识对于确保与其他工程师有效沟通是有用的。此外如果数据科学家了解部署的要求和可用资源这有助于他们为手头的项目选择最佳模型数据科学家如何应用这项技能数据科学家通常与机器学习工程师紧密合作将模型打包、优化并集成到生产系统中。他们通过设置 API、监控系统以及 CI/CD 流水线来确保模型可扩展、安全且易于维护。对于数据科学家来说拥有机器学习模型部署技能非常重要因为它允许他们将模型转化为可操作和现实世界的应用。重要的是他们的洞察力和预测能够真正用于推动商业价值和决策制定。真实世界案例你可能熟悉电子商务平台。公司部署推荐引擎根据客户的浏览和购买历史向他们推荐产品。这些模型集成到网站的后端以提供实时推荐确保它改善了用户的购物体验。如何学习这项技能在掌握机器学习的基础知识后你可以开始熟悉云平台如 AWS、GCP 或 Azure。你还应该学习一些部署工具如 Docker 或 Kubernetes从 Docker 开始因为它更适合初学者且使用更广泛。理解良好的 MLOps 实践也很重要以管理机器学习模型的生命周期持续集成、持续部署CI/CD和监控。大数据你为什么需要这项技能现在“如今所有数据都是大数据”或者我听说是这样的。虽然这并不总是正确的我目前正在做一个只有 150 行数据的项目… 但通常是这样的。随着数据的指数级增长掌握大数据技能至关重要。这些技能使你能够高效地处理和分析大量数据集帮助你提取有价值的见解并做出明智的决策。大数据技能包括编程语言如 Python、Java 和 SQL的熟练度对数据结构和算法的理解以及了解大数据处理框架如Apache Hadoop 和 Spark。这些技能对于处理和操作传统数据处理工具无法处理的大型数据集至关重要。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6688152e024a59cc705644b363e35b00.png图片由 Markus Spiske 在 Unsplash 提供数据科学家如何应用这项技能数据科学家使用大数据技能通过使用 Hadoop、Spark 和分布式数据库等工具处理、处理和分析大量数据从而揭示在较小数据集中不可见模式和见解。真实世界案例一个环境研究组织的数据科学家使用 Apache Spark 来处理和分析卫星图像用于遥感应用。每天他们处理来自多个卫星的数以兆字节的高分辨率图像使用 Spark 来清理、预处理和高效存储这些大量数据。他们应用机器学习算法来检测土地利用的变化监测森林砍伐并跟踪农业作物的健康状况。例如通过分析卫星图像的光谱数据他们可以识别受干旱或疾病影响的地区。如何学习这项技能从学习一个大数据平台或工具开始例如 Apache Spark 或 Hadoop。参加在线课程然后参与现实世界的项目并练习处理大型数据集以建立你的专业知识。最后的想法和关键要点https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6f2bde3de817c99795bcfb4bdd6ed27c.png来源Unsplash为什么在 2024 年学习新的数据科学技能很重要答案很简单数据科学领域正在快速发展。保持对新技能的了解对于保持竞争优势和继续为组织增加价值至关重要。正如我们在整篇文章中探讨的那样数据科学家的角色正在扩展所需技能也在增加世界经济论坛的《2023 年就业未来报告》(TheFuture of Jobs Report 2023 | World Economic Forum (weforum.org))强调AI 和大数据技能是需求量最大的技能之一并且到 2027 年其重要性将继续增长。根据这份报告60%的工人将需要在这些领域接受培训因为企业正在以快速的速度采用先进技术。这意味着现在投入时间学习这些技能将在未来带来巨大的回报。回顾我在柏林初创公司的实习经历我意识到那段经历是多么宝贵。它教会我成为一名数据科学家不仅仅是发现和分析的刺激还在于确保这些发现能够得到实际应用。这是我至今仍然带着的教训总是提醒我要在实验和生产之间保持平衡。因此我鼓励你立即培养这些技能不论是深度学习、AI 和机器学习、云计算、模型部署还是大数据这些领域每一个都是关键的。它们不仅会使你更加多才多艺还会为你打开新的机会并让你在你的领域中产生更大的影响。记住学习和成长的道路永无止境。拥抱这些新技能并不断推动数据科学可能性的边界。你的未来自我会感谢你感谢您的阅读如果您想支持我的工作您可以买我最喜欢的咖啡卡布奇诺。与我预约通话向我提问或在这里发送你的简历一对一辅导和简历审查其他资源Sara 的数据科学免费资源好奇我是如何从物理学转向数据科学的吗查看下面的文章如何从物理学过渡到数据科学全面指南你是否处理时间序列数据那么你必须查看下面的文章如何在你的时间序列数据中找到异常值第一部分我的名字是 Sara Nóbrega我是一名具有物理学和天体物理学背景的数据科学家。我对人工智能、MLOps、智能城市、可持续性、宇宙学和人权充满热情。参考文献2023 年人工智能现状生成式 AI 的突破性一年 | 麦肯锡数据科学工作 – 机器学习工程师与数据科学家 – 薪资差距jobs-in-data.com2024 年数据科学家就业市场分析、趋势和机遇 | 365 数据科学2023 年机器学习工程师就业前景对 1,000 多个职位发布的调研 | 365 数据科学2023 年最重要的 10 个数据科学技能 – HackerRank 博客人工智能人才热潮2024 年最热门的 10 个 AI 职位onwardsearch.com到 2025 年全球人工智能投资预计将达到 2 万亿美元goldmansachs.com2023 年就业未来报告 | 世界经济论坛weforum.org