当前位置：首页 > news >正文

高端品牌网站建设服务软文撰写

news 2025/11/24 9:25:15

高端品牌网站建设服务,软文撰写,邓州网站制作,淘客推广平台排名1. 计算图和导数计算图的概念计算图（Computation Graph）是一种有向无环图，用于表示数学表达式中的计算过程。每个节点表示一个操作或变量，每条边表示操作的依赖关系。通过计算图，可以轻松理解和实现反向传播。计算…

1. 计算图和导数

计算图的概念
计算图（Computation Graph）是一种有向无环图，用于表示数学表达式中的计算过程。每个节点表示一个操作或变量，每条边表示操作的依赖关系。通过计算图，可以轻松理解和实现反向传播。

计算图的意义

直观地展示复杂计算过程。
支持自动微分，通过链式规则计算导数。
应用于神经网络中梯度的高效计算。

例如，对于函数 $\cdot w$ ，其计算图包括三个节点（加法、乘法、输入变量）和两条边。

2. 计算代价函数的偏导 - 单神经元

代价函数的定义
代价函数衡量模型输出与真实值之间的差距，例如平方误差：

$\frac{1}{2} (y - \hat{y})^2$

其中， $\hat{y}$ 是模型输出， $y$ 是目标值。

单神经元的导数推导
假设输出为 $\hat{y} = \sigma(wx + b)$ ，其中 $\sigma$ 是激活函数（如 Sigmoid），导数计算如下：

对于权重 $w$ ：
$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w}$
对于偏置 $b$ ：
$\frac{\partial L}{\partial b} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial b}$

意义
通过计算偏导数，可以更新参数 $w$ 和 $b$ 以最小化损失函数。

3. 链导法则求导

链导法则是反向传播的核心，其定义如下：

$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}$

步骤：

先计算从输出到隐藏层的梯度。
再计算从隐藏层到输入的梯度。

例如，对于两层网络的损失函数 $L = f (g (x))$ ，使用链导法则：

$\frac{\partial L}{\partial x} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial x}$

4. 过程解释

反向传播过程包括以下步骤：

前向传播：计算网络输出和损失函数。
反向传播：从输出层开始，逐层计算梯度。
更新参数：使用梯度下降或其变体更新参数。

假设两层网络的权重为 $W_1$ 和 $W_2$ ，反向传播过程为：

计算输出层梯度 $\delta_2$ ：
$\delta_2 = \frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial \hat{y}} \cdot \sigma'(z_2)$
计算隐藏层梯度 $\delta_1$ ：
$\delta_1 = (\delta_2 \cdot W_2^T) \cdot \sigma'(z_1)$
更新权重和偏置：
$W_2 = W_2 - \alpha \cdot \delta_2 \cdot h_1^T$

$W_1 = W_1 - \alpha \cdot \delta_1 \cdot x^T$

5. 神经网络中的反向传播

多层网络中的反向传播
多层网络通过将链导法则逐层应用，从输出层反向传播至输入层。每层的梯度依赖于后一层的梯度。

实现代码示例

import numpy as np# 定义激活函数及其导数
def sigmoid(x):return 1 / (1 + np.exp(-x))def sigmoid_derivative(x):return sigmoid(x) * (1 - sigmoid(x))# 前向传播
x = np.array([1, 2])  # 输入
w1 = np.array([[0.1, 0.2], [0.3, 0.4]])  # 权重
b1 = np.array([0.5, 0.5])  # 偏置
z1 = np.dot(w1, x) + b1
a1 = sigmoid(z1)# 反向传播
delta = (a1 - 1) * sigmoid_derivative(z1)
grad_w1 = np.outer(delta, x)