神经系统与深度学习介绍 学习笔记day1
人工智能基础人工智能是计算机科学的一个分支主要研究、开发用于模拟、延伸和扩展 人类智能的理论、方法、技术及应用系统等和很多其他学科不同人工智能这个 学科的诞生有着明确的标志性事件就是1956年的达特茅斯Dartmouth会 议在这次会议上“人工智能”被提出并作为本研究领域的名称同时人工智能 研究的使命也得以确定JohnMcCarthy提出了人工智能的定义人工智能就是 要让机器的行为看起来就像是人所表现出的智能行为一样 目前人工智能的主要领域大体上可以分为以下几个方面 1感知模拟人的感知能力对外部刺激信息视觉和语音等进行感 知和加工主要研究领域包括语音信息处理和计算机视觉等2学习模拟人的学习能力主要研究如何从样例或从与环境的交互中 进行学习主要研究领域包括监督学习、无监督学习和强化学习 3认知模拟人的认知能力主要研究领域包括知识表示、自然语言理 解、推理、规划、决策等专家系统一类具有专门知识和经验的计算机智能 程序系统专家系统一般采用知识表示和知识推理等技术来完成通常由领域专 家才能解决的复杂问题因此专家系统也被称为基于知识的系统三要素领域专家级知识模拟专家思维达到专家的水平机器学习对于人类的很多智能行为比如语言理解、图像理解等我们很难知道其 中的原理也无法描述这些智能行为背后的“知识”因此我们也很难通过知 识和推理的方式来实现这些行为的智能系统为了解决这类问题研究者开始将 研究重点转向让计算机从数据中自己学习事实上“学习”本身也是一种智能行 为从人工智能的萌芽时期开始就有一些研究者尝试让机器来自动学习即机 器学习MachineLearningML 目的是设计和分析一些学习 算法让计算机可以从数据经验中自动分析并获得规律之后利用学习到的 规律对未知数据进行预测从而帮助人们完成一些特定任务提高开发效率人工智能流派符号主义又称逻辑主义、心理学派或计算机学派是 指通过分析人类智能的功能然后用计算机来实现这些功能的一类方法符号 主义有两个基本假设a信息可以用符号来表示b符号可以通过显式的规则 比如逻辑运算来操作人类的认知过程可以看作符号操作过程在人工智能 的推理期和知识期符号主义的方法比较盛行并取得了大量的成连接主义又称仿生学派或生理学派是认知科学 领域中的一类信息处理的方法和理论在认知科学领域人类的认知过程可以看 作一种信息处理过程连接主义认为人类的认知过程是由大量简单神经元构成的神经网络中的信息处理过程而不是符号运算因此连接主义模型的主要结 构是由大量简单的信息处理单元组成的互联网络具有非线性、分布式、并行化、 局部性计算以及自适应性等特性 符号主义方法的一个优点是可解释性而这也正是连接主义方法的弊端深 度学习的主要模型神经网络就是一种连接主义模型随着深度学习的发展越来 越多的研究者开始关注如何融合符号主义和连接主义建立一种高效并且具有 可解释性的模型机器学习机器学习MachineLearningML是指从有限的观测数据中学习或“猜 测”出具有一般性的规律并利用这些规律对未知数据进行预测的方法 机器学 习是人工智能的一个重要分支并逐渐成为推动人工智能发展的关键因素传统机器学习浅层学习传统的机器学习主要关注如何学习一个预测模型一般需要首先将数据表 示为一组特征Feature特征的表示形式可以是连续的数值、离散的符号或其 他形式然后将这些特征输入到预测模型并输出预测结果这类机器学习可以 看作浅层学习ShallowLearning浅层学习的一个重要特点是不涉及特征学 习其特征主要靠人工经验或特征转换方法来抽取数据预处理对数据的原始形式进行初步的数据清理比如去掉一些 有缺失特征的样本或去掉一些冗余的数据特征等和加工对数值特征进行缩 放和归一化等并构建成可用于训练机器学习模型的数据集特征提取从数据的原始特征中提取一些对特定机器学习任务有用的 高质量特征比如在图像分类中提取边缘、尺度不变特征变换ScaleInvariant Feature TransformSIFT特征在文本分类中去除停用词等特征转换对特征进行进一步的加工比如降维和升维 降维包括特征 抽取Feature Extraction和特征选择Feature Selection两种途径常用的 特征转换方法有主成分分析PrincipalComponents AnalysisPCA、 线性判 别分析LinearDiscriminant AnalysisLDA等预测机器学习的核心部分学习一个函数并进行预测表示学习为了提高机器学习系统的准确率我们就需要将输入信息转换为有效的特 征或者更一般性地称为表示Representation如果有一种算法可以自动地学 习出有效的特征并提高最终机器学习模型的性能那么这种学习就可以叫作表示学习Representation Learning语义鸿沟表示学习的关键就是解决语义鸿沟语义鸿沟问题是指输入数据的底层特征和高层语义信息之间的不一致性和差异性比如给 定一些关于“车”的图片由于图片中每辆车的颜色和形状等属性都不尽相同因此不同图片在像素级别上的表示即底层特征差异性也会非常大但是我们理 解这些图片是建立在比较抽象的高层语义概念上的如果一个预测模型直接建 立在底层特征之上会导致对预测模型的能力要求过高如果可以有一个好的表 示在某种程度上能够反映出数据的高层语义特征那么我们就能相对容易地构 建后续的机器学习模型维度传统手工特征工程表示学习特征来源依赖专家经验手动设计如 SIFT、HOG、TF-IDF模型自动从数据中学习泛化能力易受领域限制换场景需重设计强泛化跨场景可迁移效率成本耗时高、人工成本大端到端训练降低人工干预适用数据适合简单、结构化数据适配图像、文本、语音等复杂非结构化数据核心目标与关键特性信息保留映射后保留对任务关键的信息舍弃噪声冗余。紧凑性用最少维度充分编码核心特征提升效率。层次抽象深度学习通过多层网络低层学边缘 / 纹理高层学物体 / 语义。自监督主导现代多靠自监督如对比学习、掩码建模无需大量标注用数据自身做监督信号表示学习是 “让机器学会如何理解数据” 的技术把原始数据转化为机器友好的特征语言是 AI 理解图像、文本、语音的基础也是大模型、计算机视觉等领域的核心支撑。局部表示与分布式表示表示特征的方法1 一个好的表示应该具有很强的表示能力即同样大小的向量可以表示 更多信息2 一个好的表示应该使后续的学习任务变得简单即需要包含更高层的 语义信息3 一个好的表示应该具有一般性是任务或领域独立的虽然目前的大 部分表示学习方法还是基于某个任务来学习但我们期望其学到的表示可以比 较容易地迁移到其他任务上比如颜色表示就分为两种局部表示离散表示或者符号表示局部表示通常可以表示为one-hot向量的形式假如所有颜色名字构成一个词表V,此表大小|V|。我们可以用一个|V|维的one-hot向量来表示每一种颜色假设词表就 4 种颜色V{红色,中国红,黑色,蓝色}词表大小 ∣V∣4对应序号红色中国红黑色蓝色第二步各自 One-hot 向量红色第 1 维为 1[1, 0, 0, 0]中国红第 2 维为 1[0, 1, 0, 0]黑色第 3 维为 1[0, 0, 1, 0]蓝色第 4 维为 1[0, 0, 0, 1]第三步看缺点体现现在新加一种粉色词表要变 5 维所有旧向量都得加长不能直接扩展。算相似度向量内积红色 中国红1×00×10×00×00红色 黑色1×00×00×10×00完全看不出红色和中国红更像和黑色更远所有不同颜色相似度都是 0。分布式表示即使用RGB值来表示颜色不同颜色对应到R、G、B三维空间中的一个点。这种表示方法就是分布式表示红色(255, 0, 0)中国红(200, 0, 0)黑色(0, 0, 0)蓝色(0, 0, 255)嵌入 我们可以使用神经网络来将高维的局部表示空间(ℝ^|V|)映射到一个非常低维 的分布式表示空间(ℝ^), ≪||在这个低维空间中每个特征不再是坐标轴上 的点而是分散在整个低维空间中在机器学习中这个过程也称为嵌入Em bedding嵌入通常指将一个度量空间中的一些对象映射到另一个低维的度量 空间中并尽可能保持不同对象之间的拓扑关系比如自然语言中词的分布式表 示也经常叫作词嵌入 展示了一个3维one-hot向量空间和一个2维嵌入空间的对比图中有 三个样本12和3在one-hot向量空间中每个样本都位于坐标轴上每个 坐标轴上一个样本而在低维的嵌入空间中每个样本都不在坐标轴上样本之 间可以计算相似度深度学习为了学习一种好的表示需要构建具有一定“深度”的模型并通过学习算法 来让模型自动学习出好的特征表示从底层特征到中层特征再到高层特征 从而最终提升预测模型的准确率所谓“深度”是指原始数据进行非线性特征转 换的次数如果把一个表示学习系统看作一个有向图结构深度也可以看作从输 入节点到输出节点所经过的最长路径的长度这样我们就需要一种学习方法可以从数据中学习一个“深度模型”这就 是深度学习DeepLearningDL深度学习是机器学习的一个子问题其主要 目的是从数据中自动学习到有效的特征表示 深度学习是将原始的数据特征通过多步的特征转换得到一种特征表示并进一步输入到预测函数得到最终结果和“浅层学习”不同深度学习需要解决的关键问题是贡献度分配问题CreditAssignment ProblemCAP[Minsky, 1961]即一个系统中不同的组件component或其参数对最终系统输出结果 的贡献或影响以下围棋为例每当下完一盘棋最后的结果要么赢要么输我们 会思考哪几步棋导致了最后的胜利或者又是哪几步棋导致了最后的败局如何 判断每一步棋的贡献就是贡献度分配问题这是一个非常困难的问题从某种意义上讲深度学习可以看作一种强化学习ReinforcementLearningRL每个 内部组件并不能直接得到监督信息需要通过整个模型的最终监督信息奖励 得到并且有一定的延时性 目前深度学习采用的模型主要是神经网络模型其主要原因是神经网络模 型可以使用误差反向传播算法端到端学习端到端学习End-to-EndLearning也称端到端训练是指在学习过程中 不进行分模块或分阶段训练直接优化任务的总体目标在端到端学习中一般不需要明确地给出不同模块或阶段的功能中间过程不需要人为干预端到端学习的训练数据为“输入-输出”对的形式无须提供其他额外信息因此端到端学习和深度学习一样都是要解决贡献度分配问题目前大部分采用神经网络模 型的深度学习也可以看作一种端到端的学习神经网络随着神经科学、认知科学的发展我们逐渐知道人类的智能行为都和大脑活 动有关人类大脑是一个可以产生意识、思想和情感的器官受到人脑神经系统 的启发早期的神经科学家构造了一种模仿人脑神经系统的数学模型称为人工神经网络简称神经网络在机器学习领域神经网络是指由很多人工神经元构 成的网络结构模型这些人工神经元之间的连接强度是可学习的参数人工神经网络人工神经网络是为模拟人脑神经网络而设计的一种计算模型它从结构、实现机理和功能上模拟人脑神经网络人工神经网络与生物神经元类似由多个节点人工神经元互相连接而成可以用来对数据之间的复杂关系进行建模不同节点之间的连接被赋予了不同的权重每个权重代表了一个节点对另一个节点的影响大小每个节点代表一种特定函数来自其他节点的信息经过其相应的权重综合计算输入到一个激活函数中并得到一个新的活性值兴奋或抑制 从系统观点看人工神经元网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统 理论上只要有足够的训练数据和神经元数量人工神经网络就可以学到很多复杂的函数我们可以把一个人工神经网络塑造复杂函数的能力称为网络容量NetworkCapacity这与可以被储存在网络中的信息的复杂度以及数量 相关知识体系图