Yukkuri Machine Learning

不平衡数据集中的二元分类实践指南

引言在实际数据分析工作中，遇到类别分布极度不平衡的数据集并不罕见。例如在欺诈检测中不正当交易占全部交易的0.1%以下，在制造业异常检测中不良品率低于1%，在医疗诊断中罕见疾病的发生率仅为几个百分点等情况。对于这样的不平衡数据，如果简单地训练...

2025.11.17 2025.11.23

機械学習

K-Means聚类算法详解：Python实现与最佳K值确定（肘部法则/轮廓分析）

本文深入解析K-Means聚类算法（K-Means Clustering）的原理与Python实现。重点讲解如何使用scikit-learn进行建模，并详细介绍了确定最佳聚类数（K值）的两种核心方法：肘部法则（Elbow Method）和轮廓分析（Silhouette Analysis）。附带完整代码示例，助你掌握无监督学习实战技巧。

2022.02.20 2025.11.23

機械学習

线性回归与多元回归分析：理论推导、Python从零实现与scikit-learn实战

本文深入讲解机器学习中的多元线性回归分析（Multiple Linear Regression）。内容涵盖基于最小二乘法的理论推导、正规方程（Normal Equation）的数学解析，以及如何使用Python从零实现算法和使用scikit-learn进行建模的完整代码示例。帮助读者彻底掌握回归分析的数学原理与工程实践。

2021.06.27 2025.11.23

機械学習

线性回归详解：最小二乘法原理、Python从零实现与scikit-learn实战

前言　本文将介绍机器学习中历史悠久的线性回归，特别是关于“最小二乘法”的理论及其 Python 实现。最小二乘法虽然模型简单，但具有广泛的应用和扩展性，是一种非常重要的思想。　例如，当我们观察散点图时，经常会觉得其中似乎存在某种直线关系。使...

2021.06.26 2025.11.23

機械学習

图解拉格朗日乘数法：如何求解等式约束下的极值问题

前言　数学优化是指在给定的约束条件下最小化（或最大化）函数。这类数学优化问题出现在经济学、物理学等各个领域，而且许多机器学习算法最终都归结为数学优化问题。因此，了解数学优化及其求解方法应该有助于理解机器学习的根本部分。本文将讲解解决数学优化...

2021.05.04 2025.11.20

数学

硬间隔 SVM (支持向量机) Python 实现详解：从零手写算法与案例分析

前言　在上一篇文章中，我们讲解了硬间隔 SVM 的理论。本次我们将基于此，使用 Python 进行实现。此外，以下代码可在 Google Colab 上运行。\begin{align*}\newcommand{\mat}{\begin{pm...

2021.05.01 2025.11.19

プログラミング機械学習

硬间隔支持向量机 (SVM) 原理详解：理论篇

前言　支持向量机（SVM）是一种用于模式识别的监督式机器学习算法。它基于“最大化间隔”的思想，具有泛化能力强、不存在陷入局部最优解问题等优点，是一种优秀的二分类算法。SVM 分为以线性可分数据为前提的“硬间隔”，以及以线性不可分数据为前提、...

2021.03.21 2025.11.23

機械学習

向量求导公式推导详解

引言　在学习机器学习理论时，经常会遇到"标量对向量求导"的操作。本文将推导"标量对向量求导"的以下公式。\begin{align*}\newcommand{\mat}{\begin{pmatrix} #1 \end{pmatrix}}\ne...

2021.02.28 2025.11.23

数学機械学習

逻辑回归原理详解：从数学推导到梯度下降

引言　当目标变量 $y$ 为二值数据（例如 $y = 0, 1 $）时，这是针对取实数值的目标变量 $x$ 的一种预测模型。举个虚拟的例子，假设观测到 $n$ 组数据，其中对于某个数值水平 $x$，如果个体产生反应则对应 $y=1$，如果不...

2021.02.28 2025.11.23

機械学習

主成分分析（PCA）详解：Python实现与示例

引言　在上一篇文章中，我们讨论了主成分分析的理论。在本文中，我们将使用Python来实现主成分分析。　此外，以下代码可以在Google Colab中运行。\begin{align*}\newcommand{\mat}{\begin{pmat...

2021.02.26 2025.11.23

プログラミング機械学習