機械学習

不平衡数据集中的二元分类实践指南

引言在实际数据分析工作中,遇到类别分布极度不平衡的数据集并不罕见。例如在欺诈检测中不正当交易占全部交易的0.1%以下,在制造业异常检测中不良品率低于1%,在医疗诊断中罕见疾病的发生率仅为几个百分点等情况。对于这样的不平衡数据,如果简单地训练...
機械学習

K-Means聚类算法详解:Python实现与最佳K值确定(肘部法则/轮廓分析)

本文深入解析K-Means聚类算法(K-Means Clustering)的原理与Python实现。重点讲解如何使用scikit-learn进行建模,并详细介绍了确定最佳聚类数(K值)的两种核心方法:肘部法则(Elbow Method)和轮廓分析(Silhouette Analysis)。附带完整代码示例,助你掌握无监督学习实战技巧。
機械学習

线性回归与多元回归分析:理论推导、Python从零实现与scikit-learn实战

本文深入讲解机器学习中的多元线性回归分析(Multiple Linear Regression)。内容涵盖基于最小二乘法的理论推导、正规方程(Normal Equation)的数学解析,以及如何使用Python从零实现算法和使用scikit-learn进行建模的完整代码示例。帮助读者彻底掌握回归分析的数学原理与工程实践。
機械学習

线性回归详解:最小二乘法原理、Python从零实现与scikit-learn实战

前言 本文将介绍机器学习中历史悠久的线性回归,特别是关于“最小二乘法”的理论及其 Python 实现。最小二乘法虽然模型简单,但具有广泛的应用和扩展性,是一种非常重要的思想。 例如,当我们观察散点图时,经常会觉得其中似乎存在某种直线关系。使...
数学

图解拉格朗日乘数法:如何求解等式约束下的极值问题

前言 数学优化是指在给定的约束条件下最小化(或最大化)函数。这类数学优化问题出现在经济学、物理学等各个领域,而且许多机器学习算法最终都归结为数学优化问题。因此,了解数学优化及其求解方法应该有助于理解机器学习的根本部分。本文将讲解解决数学优化...
プログラミング

硬间隔 SVM (支持向量机) Python 实现详解:从零手写算法与案例分析

前言 在上一篇文章中,我们讲解了硬间隔 SVM 的理论。本次我们将基于此,使用 Python 进行实现。此外,以下代码可在 Google Colab 上运行。\begin{align*}\newcommand{\mat}{\begin{pm...
機械学習

硬间隔支持向量机 (SVM) 原理详解:理论篇

前言 支持向量机(SVM)是一种用于模式识别的监督式机器学习算法。它基于“最大化间隔”的思想,具有泛化能力强、不存在陷入局部最优解问题等优点,是一种优秀的二分类算法。SVM 分为以线性可分数据为前提的“硬间隔”,以及以线性不可分数据为前提、...
数学

向量求导公式推导详解

引言 在学习机器学习理论时,经常会遇到"标量对向量求导"的操作。本文将推导"标量对向量求导"的以下公式。\begin{align*}\newcommand{\mat}{\begin{pmatrix} #1 \end{pmatrix}}\ne...
機械学習

逻辑回归原理详解:从数学推导到梯度下降

引言 当目标变量 $y$ 为二值数据(例如 $y = 0, 1 $)时,这是针对取实数值的目标变量 $x$ 的一种预测模型。举个虚拟的例子,假设观测到 $n$ 组数据,其中对于某个数值水平 $x$,如果个体产生反应则对应 $y=1$,如果不...
プログラミング

主成分分析(PCA)详解:Python实现与示例

引言 在上一篇文章中,我们讨论了主成分分析的理论。在本文中,我们将使用Python来实现主成分分析。 此外,以下代码可以在Google Colab中运行。\begin{align*}\newcommand{\mat}{\begin{pmat...
标题和URL已复制