授课老师: 杨凯捷
常驻地: 北京

课程背景:

在数字经济时代,机器学习已成为企业从数据中提取洞察、优化决策、驱动创新的核心技术。Python作为机器学习领域的主流语言,以其丰富的库生态系统和较低的入门门槛,成为数据分析师必须掌握的关键技能。本课程专为企业数据分析师设计,聚焦于机器学习的工作流程、实践方法和企业级应用场景,通过高强度实战训练,使学员能够在两天内建立系统的机器学习知识体系,并具备解决实际业务问题的能力。

课程目标:

1.理解核心概念:掌握机器学习的基本流程、分类体系及评估框架。

2.掌握全流程技能:独立完成从数据预处理、特征工程、模型训练到评估优化的完整机器学习项目。

3.熟练应用关键算法:深入理解并应用回归、分类、聚类等经典机器学习算法,并知晓其适用场景。

4.具备实战能力:通过高度仿真的企业案例(如客户预测、产品分类、销售预测等),获得直接可迁移至工作的实践经验。

5.建立模型思维:形成以模型驱动业务分析的数据思维,能够评估模型在真实业务环境中的价值与局限

目标学员:

企业的数据分析师、业务分析师。

有一定Python基础,希望向机器学习领域拓展的IT技术人员。

需要利用机器学习技术优化业务决策的业务部门骨干。

学员前置要求:

具备基本的Python编程能力(如条件、循环、函数、基本数据结构)。

了解Pandas、Numpy库的基本操作更佳,但不是必须。

自带安装好Python环境的笔记本电脑(培训前将提供详细的软件安装指南与校验清单)。

课程特色:

实战驱动:以7:3的比例分配动手实践与理论讲解时间,确保学以致用。

案例导向:所有模块均围绕一个核心案例(如“零售商客户价值预测”)展开,保持学习的连贯性与沉浸感。

框架化思维:不仅讲解技术,更强调分析框架与模型选型的方法论,培养学员解决未知问题的能力。

即时反馈:讲师全程指导,并提供“代码诊断”环节,即时解决学员实践中遇到的问题。

课程内容

第一天:机器学习基础与核心流程实战

主题:构建完整的机器学习工作流,掌握数据预处理与经典监督学习算法。

上午(3小时):机器学习基础与数据预处理

模块1:开篇与机器学习宏观图景(30分钟)

内容:阐述机器学习在企业的核心价值(如精准营销、风险控制、效率提升);介绍机器学习的广阔分类(监督学习、无监督学习、强化学习)及典型企业应用场景;详解本课程的两天学习路径

目标:建立对机器学习领域的整体认知,明确学习目标与价值。

模块2:机器学习项目全流程与Python环境(30分钟)

内容:系统讲解机器学习项目的标准流程(CRISP-DM):业务理解、数据理解、数据准备、建模、评估、部署;演示如何配置高效的Python机器学习环境(Anaconda, Jupyter Notebook);介绍核心库(Scikit-learn, Pandas, Numpy)及其角色

目标:掌握项目流程方法论,并成功搭建实践环境。

模块3:数据预处理实战(2小时)

内容:以“电信客户流失预测”数据为案例,逐步讲解并编码实现:

▪ 数据加载与探索:使用Pandas读取CSV数据,进行describe(), info(), isnull().sum()等初步探索。

▪ 数据清洗:处理缺失值(删除、均值/中位数/众数填充、模型预测填充),识别与处理异常值(IQR方法)。

▪ 特征工程(基础):类别数据编码(Label Encoding, One-Hot Encoding);数值特征标准化(StandardScaler)与归一化(MinMaxScaler);数据集划分(train_test_split)的重要性与实操

目标:能够独立完成一个数据集的数据清洗与基础特征工程,为建模做好准备。

实践:提供一份含有缺失值、异常值和类别型特征的模拟数据集,学员完成其数据预处理流程。

下午(3小时):监督学习算法(一)——回归与分类

模块4:线性回归与模型评估(1.5小时)

内容:

算法原理:从实际问题出发,直观理解线性回归的假设与目标(拟合一条线)。

核心概念:简单讲解损失函数(如均方误差MSE)与梯度下降的基本思想。

实战演练:使用Scikit-learn构建一元和多元线性回归模型,预测连续值目标(如房价)。

模型评估:学习回归模型的评估指标(R², MAE, MSE, RMSE),并解读其结果含义

目标:理解并实现线性回归模型,并能科学评估其性能。

案例:基于波士顿房价数据集或模拟销售数据,预测房屋价格或产品销量。

模块5:逻辑回归与KNN(1.5小时)

内容:

▪ 算法原理:讲解逻辑回归如何通过Sigmoid函数解决二分类问题(如是/否)。

▪ 实战演练:使用Scikit-learn构建逻辑回归模型,处理客户流失预测案例。

▪ 模型评估:重点学习分类模型的评估指标:准确率、精确率、召回率、F1-Score,并解读混淆矩阵。

▪ K近邻算法:介绍KNN基于距离投票的简单思想,演示其实现过程,并讨论K值选择的影响

目标:掌握两种经典的分类算法,并能全面评估分类模型性能。

案例:继续使用“电信客户流失预测”数据,应用逻辑回归和KNN进行建模,并比较模型效果。

第一天课程总结与作业(30分钟)

内容:回顾第一天核心知识点(机器学习流程、数据预处理、线性回归、逻辑回归);布置课后思考题:为什么逻辑回归叫“回归”却用于“分类”?准备一份更复杂的数据集供第二天使用。

第二天:高级算法、模型优化与综合应用

主题:深入理解决策树与集成学习,掌握模型优化技术,并完成端到端项目实战。

上午(3小时):监督学习算法(二)与模型优化

模块6:决策树与集成学习(2小时)

内容:

▪ 决策树原理:生动解释决策树如何通过“if-else”问题进行数据划分;引入信息熵、信息增益的概念(直观理解,避免复杂公式)。

▪ 实战演练:使用Scikit-learn构建决策树分类器,并可视化决策过程。

▪ 集成学习:阐述“三个臭皮匠,顶个诸葛亮”的思想;重点讲解两种主流集成方法:

▪ 随机森林:Bagging思想,通过构建多棵决策树并投票来降低过拟合。

▪ 梯度提升树:Boosting思想(如AdaBoost, GBDT),通过不断学习残差来提升模型性能。

目标:理解决策树的工作机制,掌握随机森林和梯度提升树这两种强大且常用的集成算法。

案例:使用银行营销数据集,预测客户是否会订阅定期存款。比较决策树、随机森林和梯度提升树的性能差异。

模块7:模型优化与超参数调优(1小时)

内容:

▪ 过拟合与欠拟合:通过图形化方式展示这两种现象,并讨论其解决方案(如获取更多数据、特征工程、正则化、剪枝)。

▪ 超参数调优:讲解超参数与模型参数的区别;实战演示两种自动化调参方法:

▪ 网格搜索:使用GridSearchCV系统性地遍历参数组合。

▪ 随机搜索:使用RandomizedSearchCV更高效地搜索参数空间

目标:能够诊断模型常见问题,并运用工具对模型性能进行优化。

实践:对上午的随机森林模型进行超参数调优,观察模型性能的提升。

下午(3小时):无监督学习与综合项目实战

模块8:无监督学习——聚类分析(1小时)

内容:

▪ 算法原理:介绍无监督学习的意义;重点讲解K-Means聚类算法的步骤(选择K值、初始化中心点、分配簇、更新中心点)。

▪ 关键问题:如何选择合理的K值?介绍手肘法的应用。

▪ 实战演练:使用K-Means对客户进行分群,实现客户细分。

目标:掌握K-Means聚类算法,并能将其应用于市场细分、用户画像等业务场景。

案例:对零售商的客户消费数据进行聚类,将客户分成不同价值群体,并分析不同群体的特征。

模块9:端到端综合项目实战(1.5小时)

内容:引导学员分组完成一个完整的机器学习项目,例如“电商用户购买行为预测”。

▪ 任务:从原始数据出发,完整经历数据探索、预处理、特征工程、多个模型训练与评估、模型选择与调优的全过程。

▪ 要求:鼓励尝试不同的算法(如逻辑回归、随机森林、XGBoost),并给出选择最终模型的理由

目标:整合两天所学技能,培养独立完成一个机器学习项目的能力。

形式:讲师提供数据集和任务书,学员分组协作,讲师巡回指导,最后各组简要分享成果。

模块10:课程总结、展望与答疑(30分钟)

内容:用思维导图回顾两天课程的核心知识脉络;简要介绍机器学习在深度学习、自然语言处理、计算机视觉等领域的进阶方向;探讨机器学习模型在企业中部署、监控与维护的挑战;提供后续学习资源建议(书籍、在线课程、社区);解答学员疑问

目标:帮助学员构建知识体系,指明未来学习方向,增强将技术应用于工作的信心。

授课老师

杨凯捷 AI应用实践专家

常驻地:北京
邀请老师授课:13439064501 陈助理

主讲课程:《AI赋能:DeepSeek助力办公效能提升实战课》 《生成式AI重构办公场景》 《AI自动化流程设计》 《AI大预言模型与多模态图片、视频生成》 《国内人工智能平台在工作中的实操应用》 《生成式人工智能图像处理平台的实操应用》 《GPT生成式人工智能的发展趋势展望》《华为企业业务渠道管理的方式与经验》 《互联网云业务生态战略与数字化变革》 《腾讯产业云计算解决方案的落地经验分享》

杨凯捷老师的课程大纲

微信小程序

微信扫一扫体验

扫一扫加微信

返回
顶部