
点击上方蓝字关注我们

破除误解,明晰方向
-
数据科学不是数学,可以速成? 一些不负责任的线上课程通常宣称几天培训就能培养出数据科学专家,这类课程往往着重机器学习主题与简单编码教程,却忽视数学原理,把导入的库或者LLM当黑盒子使用,但这种缺乏对背后数学原理了解的简单应用并非真正的数据科学。
-
数据科学等同于LLM或生成式AI? 尽管生成式AI是数据科学领域时下最火的技术热点,但数据科学的范畴远不止于此。LLM固然是重大突破,但无法解决所有学术、研究或商业问题。数据科学涵盖多种工具与算法,LLM只是其中之一,不能以偏概全定义整个数据科学技能体系。
数学:筑牢数据科学基石
1. 高维数据表示与存储:
线性代数通过向量和矩阵的形式,帮助我们表示和存储大规模数据,使得数据能够在计算机中高效处理(还记得吗?神经网络只“认识”数字)。
2. 数据转换与优化:
利用线性变换、行列式、正交性和秩等概念,可以对数据进行转换、投影和优化。这些技术能够帮助我们从复杂的数据中提取有用的特征。
3. 降维技术:
降维方法如主成分分析(PCA)依赖于奇异值分解(SVD)等线性代数工具,能够将高维数据转化为低维的有意义表示,从而减少计算复杂度并提高分析效率。
4. 神经网络与大语言模型(LLM):
许多机器学习算法的核心,特别是神经网络和大语言模型,依赖于高效的矩阵运算(如矩阵乘法)来处理大量的训练和推理计算需求。
1. 基本统计量:
平均值、中位数、众数:帮助我们理解数据的集中趋势
方差、标准差:衡量数据的波动性和分散程度
-
分位数:帮助描述数据的分布情况,尤其是中位数、四分位数等
2. 统计概念:
-
方差、协方差和相关性:用于分析特征之间的关系
3. 概率基础:
概率公理、概率密度函数、概率分布函数:是理解概率的基本框
随机变量:包括连续和离散随机变量,帮助我们描述数据的随机性
-
贝叶斯定理、期望、方差、联合分布和条件概率:是深入理解概率模型的关键
4. 常见概率分布:
-
高斯(正态)、几何、伯努利、二项式等分布,能够帮助我们更好地假设数据的分布特点
5. A/B 测试:
-
在产品数据科学中,A/B 测试常用于比较不同方案的效果。了解如何使用统计检验(如 z 检验和卡方检验)进行假设检验,有助于做出更科学的决策。
机器学习基础:开启智能之门


LLM内部原理入门可参考我们的系列文章(更新中):
中学生就能看懂:从零开始理解LLM内部原理【二】|神经网络如何被训练?
中学生就能看懂:从零开始理解LLM内部原理【三】|神经网络如何生成语言?

编码:赋予数据科学实践之力
NumPy库为高效的向量与矩阵运算提供支持 Pandas/PySpark则在数据处理方面发挥着核心作用 Scikit - learn可用于实现机器学习算法 PyTorch助力深度学习模型的搭建 -
Matplotlib则能帮助你实现精美的数据可视化
通过LeetCode、GeeksForGeeks等平台进行大量的Python练习 利用SQLZOO和w3schools学习SQL知识 练习将机器学习与编码技能紧密结合,解决实际问题。亲手实现机器学习算法,能够让你更加深入地理解算法原理,提升自己的实践能力
只要保持正确的心态,循序渐进地学习,你一定能够在数据科学的道路上脱颖而出。
end
福利时间
为了帮助LLM开发人员更系统性与更深入的学习RAG应用,特别是企业级的RAG应用场景下,当前主流的优化方法与技术实现,我们编写了《基于大模型的RAG应用开发与优化 — 构建企业级LLM应用》这本长达500页的开发与优化指南,与大家一起来深入到LLM应用开发的全新世界。
更多细节,点击链接了解
此处购买享5折优惠
