機械学習

機械学習

不平衡数据集中的二元分类实践指南

引言在实际数据分析工作中,遇到类别分布极度不平衡的数据集并不罕见。例如在欺诈检测中不正当交易占全部交易的0.1%以下,在制造业异常检测中不良品率低于1%,在医疗诊断中罕见疾病的发生率仅为几个百分点等情况。对于这样的不平衡数据,如果简单地训练...
プログラミング

硬间隔 SVM (支持向量机) Python 实现详解:从零手写算法与案例分析

前言 在上一篇文章中,我们讲解了硬间隔 SVM 的理论。本次我们将基于此,使用 Python 进行实现。此外,以下代码可在 Google Colab 上运行。\begin{align*}\newcommand{\mat}{\begin{pm...
機械学習

硬间隔支持向量机 (SVM) 原理详解:理论篇

前言 支持向量机(SVM)是一种用于模式识别的监督式机器学习算法。它基于“最大化间隔”的思想,具有泛化能力强、不存在陷入局部最优解问题等优点,是一种优秀的二分类算法。SVM 分为以线性可分数据为前提的“硬间隔”,以及以线性不可分数据为前提、...
数学

向量求导公式推导详解

引言 在学习机器学习理论时,经常会遇到"标量对向量求导"的操作。本文将推导"标量对向量求导"的以下公式。\begin{align*}\newcommand{\mat}{\begin{pmatrix} #1 \end{pmatrix}}\ne...
機械学習

逻辑回归原理详解:从数学推导到梯度下降

引言 当目标变量 $y$ 为二值数据(例如 $y = 0, 1 $)时,这是针对取实数值的目标变量 $x$ 的一种预测模型。举个虚拟的例子,假设观测到 $n$ 组数据,其中对于某个数值水平 $x$,如果个体产生反应则对应 $y=1$,如果不...
プログラミング

主成分分析(PCA)详解:Python实现与示例

引言 在上一篇文章中,我们讨论了主成分分析的理论。在本文中,我们将使用Python来实现主成分分析。 此外,以下代码可以在Google Colab中运行。\begin{align*}\newcommand{\mat}{\begin{pmat...
機械学習

理解主成分分析(PCA)- 理论篇

引言 主成分分析是一种方法,它能够在尽可能不丢失信息的前提下,将相互关联的特征所构成的多维数据,通过原始特征的线性组合来表示新的特征,从而实现数据的降维。在机器学习中需要分类的数据往往是远超三维的高维数据。因此,数据的可视化变得困难,计算成...