数据科学家必须知道的75个机器学习术语
数据科学有着丰富的词汇表。这个列表列出了数据科学家几乎每天都会使用的75个最常见且重要的术语。
因此,了解这些术语极其关键。下面我们列出75个关键的机器学习术语(按英文字母顺序排列)。本文源自【1】,作者Chawla, Avi。
A
Accuracy (准确率): 衡量正确预测数与总预测数之间的比例。
Area Under Curve (AUC, 曲线下面积): 表示在接收者操作特性曲线(Receiver Operating Characteristic, ROC)下的区域,用于评估分类模型。
ARIMA (自回归整合移动平均): 一种时间序列预测方法。
B
Bias (偏差): 在统计模型中,真实值与预测值之间的差异。
Bayes Theorem (贝叶斯定理): 基于先验知识计算事件可能性的概率公式。
Binomial Distribution (二项分布): 概率分布,模拟固定数量的独立伯努利试验中的成功次数。
C
Clustering (聚类): 基于相似性对数据点进行分组。
Confusion Matrix (混淆矩阵): 用于评估分类模型性能的表格。
Cross-validation (交叉验证): 通过将数据划分为子集来评估模型性能的技术,用于训练和测试。
D
Decision Trees (决策树): 用于分类和回归任务的树状模型。
Dimensionality Reduction (降维): 在保留重要信息的同时,减少数据集中特征的数量的过程。
Discriminative Models (判别模型): 学习不同类别之间边界的模型。
E
Ensemble Learning (集成学习): 结合多个模型以提高预测性能的技术。
EDA (探索性数据分析): 分析和可视化数据以了解其模式和属性的过程。
Entropy (熵): 信息中不确定性或随机性的度量。
F
Feature Engineering (特征工程): 从现有数据创建新特征以提高模型性能的过程。
F-score (F分数): 用于二元分类的平衡精确度和召回率的指标。
Feature Extraction (特征提取): 自动从数据中提取有意义的特征的过程。
G
Gradient Descent (梯度下降): 用于通过迭代调整参数来最小化函数的优化算法。
Gaussian Distribution (高斯分布): 具有钟形概率密度函数的正态分布。
Gradient Boosting (梯度提升): 顺序构建多个弱学习者的集成学习方法。
H
Hypothesis (假设): 在统计推断中可测试的陈述或假设。
Hierarchical Clustering (层次聚类): 将数据组织成树状结构的聚类方法。
Heteroscedasticity (异方差性): 回归模型中错误的不等方差。
I
Information Gain (信息增益): 在决策树中用来确定特征重要性的度量。
Independent Variable (独立变量): 在实验中操纵以观察其对因变量影响的变量。
Imbalance (不平衡): 数据集中类的分布不均等的情况。
J
Jupyter: 用于数据分析和机器学习的交互式计算环境。
Joint Probability (联合概率): 两个或多个事件同时发生的概率。
Jaccard Index (杰卡德指数): 两个集合之间的相似度度量。
K
Kernel Density Estimation (核密度估计): 估计连续随机变量的概率密度函数的非参数方法。
KS Test (Kolmogorov-Smirnov Test, KS测试): 比较两个概率分布的非参数测试。
KMeans Clustering (K均值聚类): 根据相似性将数据划分为K个簇。
L
Likelihood (似然度): 给定特定模型时观察到数据的机会。
Linear Regression (线性回归): 用于建模因变量和自变量之间关系的统计方法。
L1/L2 Regularization (L1/L2正则化): 通过在模型的损失函数中添加惩罚项来防止过拟合的技术。
M
Maximum Likelihood Estimation (最大似然估计): 估计统计模型参数的方法。
Multicollinearity (多重共线性): 在回归模型中,两个或多个自变量高度相关的情况。
Mutual Information (互信息): 两个变量之间共享的信息量的度量。
N
Naive Bayes (朴素贝叶斯): 基于贝叶斯定理的概率分类器,假设特征之间独立。
Normalization (标准化): 将数据缩放到指定范围
O
Overfitting (过拟合): 当模型在训练数据上表现良好,但在新的、未见过的数据上表现不佳时。
Outliers (异常值): 在数据集中与其他数据点明显不同的数据点。
One-hot encoding (独热编码): 将分类变量转换为二进制向量的过程。
P
PCA (Principal Component Analysis, 主成分分析): 降维技术,将数据转换为正交分量。
Precision (精确度): 在分类模型中,真正预测的比例与所有正面预测之间的比例。
p-value (p值): 如果零假设为真,观察到至少与所得结果一样极端的结果的概率。
Q
QQ-plot (Quantile-Quantile Plot, 分位数-分位数图): 图形工具,用于比较两个数据集的分布。
QR decomposition (QR分解): 将矩阵分解为正交矩阵和上三角矩阵。
R
Random Forest (随机森林): 使用多个决策树进行预测的集成学习方法。
Recall (召回率): 在分类模型中,真正预测的比例与所有实际正面实例之间的比例。
ROC Curve (Receiver Operating Characteristic Curve, 接收者操作特性曲线): 图表显示了在不同阈值下二元分类器的性能。
S
SVM (Support Vector Machine, 支持向量机): 用于分类和回归的监督机器学习算法。
Standardisation (标准化): 将数据缩放到均值为0,标准差为1。
Sampling (抽样): 从较大的数据集中选择数据点子集的过程。
T
t-SNE (t-Distributed Stochastic Neighbor Embedding): 用于在较低维度中可视化高维数据的降维技术。
t-distribution (t分布): 在样本大小较小时用于假设检验的概率分布。
Type I/II Error (I/II型错误): 在假设检验中,I型错误是假阳性,II型错误是假阴性。
U
Underfitting (欠拟合): 当模型过于简单,无法捕获数据中的基本模式时。
UMAP (Uniform Manifold Approximation and Projection): 用于可视化高维数据的降维技术。
Uniform Distribution (均匀分布): 所有结果都同样可能的概率分布。
V
Variance (方差): 数据点围绕均值分布的度量。
Validation Curve (验证曲线): 图表显示了模型性能如何随不同超参数值而变化。
Vanishing Gradient (梯度消失): 在深度神经网络中,当梯度在训练过程中变得非常小的问题。
W
Word embedding (词嵌入): 在自然语言处理中将单词表示为密集向量。
Word cloud (词云): 文本数据的可视化,其中单词的频率通过单词的大小表示。
Weights (权重): 在训练过程中由机器学习模型学习的参数。
X
XGBoost: 极端梯度提升,一种流行的梯度提升库。
XLNet: Generalized Autoregressive Pretraining of Transformers,一种语言模型。
Y
YOLO (You Only Look Once): 实时对象检测系统。
Yellowbrick: 用于机器学习可视化和诊断工具的Python库。
Z
Z-score (Z得分): 表示数据点与均值之间有多少标准差的标准化值。
Z-test (Z检验): 用于比较样本均值和已知总体均值的统计测试。
Zero-shot learning (零次学习): 机器学习方法,模型可以在训练期间未见到明确示例的情况下识别新类别。
参考资料:
【1】Chawla, Avi. "75 Key Terms That All Data Scientists Remember By Heart: Must-know concepts/terms in data science." Daily Dose of DS, 24 July 2023, https://www.blog.dailydoseofds.com/p/75-key-terms-that-all-data-scientists