Skip to content

深度学习入门

什么是深度学习?

深度学习(Deep Learning, DL)是机器学习的一个子领域,它使用具有多层结构的人工神经网络(Artificial Neural Networks, ANNs)来学习数据的复杂表示。

核心概念:人工神经网络

神经元 (Neuron)

  • 结构:接收输入,进行加权求和,通过激活函数处理,然后产生输出。
  • 激活函数:引入非线性,使网络能够学习复杂模式。常用激活函数包括 ReLU, Sigmoid, Tanh。

网络层 (Layer)

  • 输入层 (Input Layer):接收原始数据。
  • 隐藏层 (Hidden Layer):进行特征提取和转换。深度学习通常包含多个隐藏层。
  • 输出层 (Output Layer):产生最终的预测或分类结果。

前向传播 (Forward Propagation)

数据从输入层流向输出层的过程,计算网络的预测结果。

反向传播 (Backward Propagation)

计算预测结果与真实标签之间的误差,并将误差信息反向传播回网络,用于更新网络权重(通过梯度下降等优化算法)。

常见的深度学习模型

1. 卷积神经网络 (Convolutional Neural Networks, CNN)

  • 特点:特别擅长处理网格状数据,如图像。通过卷积层提取空间层级特征。
  • 应用:图像识别、目标检测、图像生成。

2. 循环神经网络 (Recurrent Neural Networks, RNN)

  • 特点:能够处理序列数据,具有"记忆"能力,可以捕捉时间依赖关系。
  • 变种:长短期记忆网络 (LSTM)、门控循环单元 (GRU),用于解决 RNN 的梯度消失/爆炸问题。
  • 应用:自然语言处理(文本生成、机器翻译)、语音识别、时间序列预测。

3. Transformer

  • 特点:基于自注意力机制(Self-Attention),能够并行处理序列数据,在 NLP 领域取得了巨大成功。
  • 应用:BERT, GPT 系列模型。

常用框架

  • TensorFlow: 功能全面,生态系统完善,适合生产部署。
  • PyTorch: 灵活性高,易于调试,在研究领域非常流行。
  • Keras: 高层 API,可以运行在 TensorFlow, Theano, CNTK 之上,易于快速原型设计。

更多内容持续更新中...

Released under the MIT License.