第312章 历景铄的神经网络模型进展[1/2页]
天才一秒记住本站地址:[UC小说]https://m.ucxsla.com最快更新!无广告!
第312章
历景铄的神经网络模型进展
有了燧火这么一个趁手的算法工程工具,历景铄的神经网络算法研发进度可谓突飞猛进。
两个月前,经过多次尝试,他成功复现了当下学界比较流行的感知机神经网络训练结果,在手写数字识别任务上,已经达到了百分之七十的正确率。
这一成果在国内研究环境中,已然十分亮眼,但历景铄的目光并未就此满足,他深知前路漫漫,还有更多的未知等待探索,于是赶忙找到秦奕开始认真商量下一步的探索方向。
神经网络算法模型的研发有三大关键要素:数据、模型和优化算法。
在神经网络体系中,数据是极为重要的基础部分,数据的质量优劣、规模大小以及多样性程度,对模型的学习能力与泛化能力有着全面且关键的影响。
当数据足够多样时,模型便不会局限于学习某一类特定的数字特征,而是可以提炼出更具通用性、更普遍适用的特征模式,从而在面对从未见过的新数字样本时,也能准确识别。
但要是数据存在偏差,比如手写数字识别任务里的数据某些数字样本数量过多,而另一些过少,模型在学习时就会过度倾向于数量多的数字特征,使得对其他数字的识别能力大幅下降,严重损害泛化性能。
历景铄为了方便对比漂亮国学术界的研究成果,一开始没有去耗费大量精力构建自己独有的数据集,用的是漂亮国现成的数据集——漂亮国国家标准与技术研究院的公开
NIST
手写数字数据集。
这个数据集是前世被广泛应用于学术研究和工业实践中的手写数字识别领域基准测试数据集
MNIST
的前身,每个样本都是
28×28
像素的灰度图像,代表0
9之间的一个数字。
不过
MNIST
数据集包含六万个训练样本和一万个测试样本,而目前
NIST
数据集目前只有两万个训练样本和五千个测试样本。
随后,话题转到模型架构上,这是历景铄目前希望改进的重点。
他拿起一支笔,在纸上简单画了个神经网络结构草图,说道:“模型架构是神经网络的核心,具体分为网络结构和参数两大部分。”
“网络结构说白了,就是神经网络怎么组织,有几层,每层是什么类型,连接方式如何,信息又是怎么在各层之间流动,这是神经网络的‘骨架,决定了网络的功能和适用场景。”
“网络参数呢,就是神经网络里要学习的权重和偏置,决定了网络怎么从输入数据里提取特征、做出预测。”
“现在学术界流行的多层感知机神经网络,是一种前馈神经网络,结构有输入层、隐藏层和输出层,神经元基本都是全连接。”
“我用的也是相同的结构,在处理
28×28
像素图像的时候,得把图像数据所有像素先展平成一维
784
长的向量数据,然后从输入层一层一层传到输出层,每层通过权重矩阵和激活函数做非线性映射。”
秦奕凭借前世的经验直接指出了当下多层感知机神经网络的缺点所在:“我觉得这个多层感知机这个神经网络目前至少有两个方面可以改进。”
“首先,它的每个神经元都得和上一层的所有神经元相连,这会导致整个神经网络的参数数量是网络层数的
784
倍,
第312章 历景铄的神经网络模型进展[1/2页]
『加入书签,方便阅读』