您现在的位置是:首页 > 正文

softmax损失函数

2024-01-30 23:26:38阅读 1

假设共有 K K K 个类别,第 i i i 个类别对应的得分为 z i z_i zi(可以理解为某个输入样本的第 个输出)。

softmax 模型的前向传播就是将输入的得分通过 softmax 运算,变成 K K K 个概率值。具体来说,就是先对每个得分取指数,再除以所有得分指数的和,最后得到的 K K K 个数值在 0 到 1 之间(即概率值),且它们的和等于 1。其数学表达式如下:
y i ^ = s o f t m a x ( z i ) = e z i ∑ j = 1 K e z j \hat{y_i}=softmax(z_i)=\frac{e^{z_i}}{\sum^K_{j=1}e^{z_j}} yi^=softmax(zi)=j=1Kezjezi

其中 y i ^ \hat{y_i} yi^为模型对第 i i i 个类别的预测值。

对于一个有标记的样本 ( x , y ) (x,y) (x,y) ,假设其正确的类别为第 i i i 个(即 )。则我们希望模型对该样本的预测值 y i ^ \hat{y_i} yi^ 把概率值尽可能地靠近 1,而把其他类别的概率值尽可能地靠近 0。

那么我们可以设计一个交叉熵损失函数来量化模型的预测值和真实值之间的误差。交叉熵可以理解为两个分布之间的距离度量,它在分类问题中被广泛应用。

具体来说,该损失函数可以表示为: L ( y , z ) = − ∑ j = 1 K y j log ⁡ y j ^ L(y,z)=-\sum^K_{j=1}y_j\log{\hat{y_j}} L(y,z)=j=1Kyjlogyj^

其中 y y y 为一个一维的 K K K 维向量,对于正确的类别 i i i 位置上的值为 1,其他位置上的值为 0。 y i ^ \hat{y_i} yi^为 softmax 函数的结果。

对于所有的样本,我们希望整个模型的损失函数取到最小值。因此,我们可以对模型的所有参数(包括权重和偏置)进行梯度下降求解。

最终,我们的目标就是通过不断地迭代训练数据,让模型的 softmax 计算得到的概率值尽可能地接近真实标记,而并不是最大化概率值。因此,我们会使用交叉熵损失函数来约束模型的参数学习过程。

网站文章

  • js并发上传文件到不同服务器,simple-uploader.js 功能强大的上传组件 - 文章教程

    simple-uploader.js(也称 Uploader)是一个上传库,支持多并发上传,文件夹、拖拽、可暂停继续、秒传、分块上传、出错自动重传、手工重传、进度、剩余时间、上传速度等特性;该上传库依...

    2024-01-30 23:26:31
  • Android Kernel如何确定使用哪个defconfig文件

    Android Kernel如何确定使用哪个defconfig文件

    Android Kernel如何确定使用哪个defconfig文件? 答案: device目录下的项目文件夹下的AndroidBoard.mk决定了使用哪个def_config文件 1. 项目控制的A...

    2024-01-30 23:26:22
  • 解决谷歌浏览器http链接自动跳转到https的问题

    解决谷歌浏览器http链接自动跳转到https的问题

    有些网址http协议和https协议是两个服务,有时候需要访问http地址,但chrome会默认转成https请求地址,输入 http://baidu.com 会自动跳转到 https://baidu.com这时候清理浏览器缓存之类的都是没有用的,需要进行如下操作,在chrome浏览器地址输入:chrome://net-internals/#hsts在最下面的Delete doma...

    2024-01-30 23:25:53
  • 速腾聚创与震坤行及英矽智能IPO备案获批:海外上市将提速

    速腾聚创与震坤行及英矽智能IPO备案获批:海外上市将提速

    雷递网 雷建平 11月11日2023年11月以来,中国证监会境外发行上市备案工作在提速。雷递网获悉,RoboSense Technology Co.,Ltd(速腾聚创)、InSilico Medici...

    2024-01-30 23:25:45
  • OBTW的完整形式是什么?

    OBTW:哦,顺便说一下 (OBTW: Oh, By The Way)OBTW is an abbreviation of "Oh, By The Way". OBTW是“哦,顺便说一下”的缩写 。 It is an expression, which is commonly used in messaging or chatting on social media networking ...

    2024-01-30 23:25:39
  • jdbctemplate

    使用RowMapper查询单笔数据public User find(Integer id){        User user=(User)jdbcTemplate.queryForObject("select * from user where id=?",new Object[]{id},                                             

    2024-01-30 23:25:10
  • 1. Redis持久化数据和缓存怎么做扩容?

    Redis高级服务相关概念

    2024-01-30 23:25:02
  • 章节十六、7-DataProviders

    章节十六、7-DataProviders

    一、当我们的同一个test有多套数据需要进行测试,那么我们就需要用到--》DataProviders 1 package testclasses1; 2 3 import org.testng.annotations.DataProvider; 4 import org.testng.annotations.Test; 5 6 public class T...

    2024-01-30 23:24:53
  • 靶机渗透之FourAndSix2(二)

    靶机渗透之FourAndSix2(二)

    一、环境准备一台kali,一台FourAndSix2,能相互ping通二、靶机发现1.主机发现,用kali扫描靶机ip地址为192.168.19.156nmap -sP 192.168.19.0/24...

    2024-01-30 23:24:46
  • solr replication原理探究

    solr replication原理探究

    【转载至http://sbp810050504.blog.51cto.com/2799422/1423199】无论是垂直搜索,还是通用搜索引擎,对外提供搜索服务其压力都比较大,经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况,一般的应对方法就是【集群】+【负载均衡】。Solr提供了两种解决方案来对应访问压力。其一是Replication,其一是SolrCloud

    2024-01-30 23:24:17