当前位置: 首页 > news >正文

国外服务器商seo是指搜索引擎营销

国外服务器商,seo是指搜索引擎营销,网站建设的静态网页作业,WordPress加载语言包GPT1开山之作:Improving language understanding by generative pre-training 本文提出了gpt1,即使用无标签的数据对模型先进行训练,让模型学习能够适应各个任务的通用表示;后使用小部分 task-aware的数据对模型进行微调&#xff…

GPT1开山之作:Improving language understanding by generative pre-training

在这里插入图片描述
本文提出了gpt1,即使用无标签的数据对模型先进行训练,让模型学习能够适应各个任务的通用表示;后使用小部分 task-aware的数据对模型进行微调,可以在各个task上实现更强大的功能。

设计框架

分为两块,pre-train和fine-tune,使用transformer模型的解码器部分。

第一阶段:Unsupervised pre-training

预测连续的k个词的下一个词的概率,本质就是最大似然估计,让模型下一个输出的单词的最大概率的输出是真实样本的下一个单词的 u i u_i ui。后面的元素不会看,只看前k个元素,这就和transformer的解码器极为相似。
在这里插入图片描述

第二阶段:Supervised fine-tuning

训练下游的task的数据集拥有以下形式的数据:假设每句话中有m个单词,输入序列 { x 1 , x 2 , . . . , x m } \{x^1,x^2,...,x^m\} {x1,x2,...,xm} 和一个标签 y y y(忧下游任务决定)。
在这个阶段,作者定义了两个优化函数,L1保证句子的连贯性,L2保证下游任务的准确率。
在这里插入图片描述

下游任务

针对不同的下游任务,制定了不同的训练方案,其完整的内部框架结构如下:

在这里插入图片描述

复现代码

一个十分简易的复现:

import torch
import torch.nn as nn
import torch.nn.functional as F
import math
import copyimport torch.nn.functional as F# accepts input in [ batch x channels x shape ] format
class Attention(nn.Module):def __init__(self, in_channels, heads, dropout=None):assert in_channels % heads == 0super().__init__()self.in_channels = in_channelsself.heads = headsself.dropout = dropoutdef forward(self, queries, keys, values, mask=None):attention = torch.bmm(queries, keys.permute(0,2,1)) / self.in_channels**0.5if mask is not None:attention = attention.masked_fill(mask, -1e9)attention = F.softmax(attention, dim=-1)if self.dropout is not None:attention = F.dropout(attention, self.dropout)output = torch.bmm(attention, values)return output# adds positional encodings
class PositionalEncoding(nn.Module):def forward(self, input_):_, channels, length = input_.shapenumerator = torch.arange(length, dtype=torch.float)denominator = 1e-4 ** (2 * torch.arange(channels, dtype=torch.float) / channels)positional_encodings = torch.sin(torch.ger(denominator, numerator))return input_ + positional_encodingsclass EncoderLayer(nn.Module):def __init__(self, in_channels, heads, dropout=None):super().__init__()self.in_channels = in_channelsself.heads = headsself.produce_qkv = nn.Linear(in_channels, 3*in_channels)self.attention = Attention(in_channels, heads, dropout)self.linear = nn.Linear(in_channels, in_channels)def forward(self, inputs):qkv = self.produce_qkv(inputs)queries, keys, values = qkv.split(self.in_channels, -1)attention = self.attention(queries, keys, values)outputs = F.layer_norm(attention + inputs, (self.in_channels,))outputs = F.layer_norm(self.linear(outputs) + outputs, (self.in_channels,))return outputs class DecoderLayer(nn.Module):def __init__(self, in_channels, heads, dropout=None):super().__init__()self.in_channels = in_channelsself.heads = headsself.produce_qkv = nn.Linear(in_channels, 3*in_channels)self.produce_kv = nn.Linear(in_channels, 2*in_channels)self.masked_attention = Attention(in_channels, heads, dropout)self.attention = Attention(in_channels, heads, dropout)self.linear = nn.Linear(in_channels, in_channels)def forward(self, inputs, outputs):qkv = self.produce_qkv(outputs)queries, keys, values = qkv.split(self.in_channels, -1)n = inputs.shape[1]mask = torch.tril(torch.ones((n, n), dtype=torch.uint8))attention = self.masked_attention(queries, keys, values, mask)outputs = F.layer_norm(attention + outputs, (self.in_channels,))kv = self.produce_kv(inputs)keys, values = kv.split(self.in_channels, -1)attention = self.attention(outputs, keys, values)outputs = F.layer_norm(attention + outputs, (self.in_channels,))outputs = F.layer_norm(self.linear(outputs) + outputs, (self.in_channels,))return outputsif __name__ == '__main__':print("Running...")test_in = torch.rand([3,4,5])encoder = EncoderLayer(5, 1)test_out = encoder(test_in)  # torch.Size([3, 4, 5])assert test_out.shape == (3, 4, 5)print("encoder passed")decoder = DecoderLayer(5, 1) # 这就是gpt模型test_mask = torch.tril(torch.ones((4, 4), dtype=torch.uint8))test_out = decoder(test_in, test_in)assert test_out.shape == (3, 4, 5)  # torch.Size([3, 4, 5])print("decoder passed")

GPT2

http://www.ds6.com.cn/news/30123.html

相关文章:

  • wap网站后台模板网站投放广告费用
  • 网站路径问题二级域名查询入口
  • 贵阳做网站设计网络营销策划书
  • 辽宁网站建设推广哪家便宜网站友情链接购买
  • 专门做焦点图的网站百度广告联盟
  • 用php做注册网站的代码宁德市旅游景点大全
  • 批发网站有哪些和业务多一样的平台
  • 网站建设公司哪家专业怎么把平台推广出去
  • 全市做家装建材b2c网站青岛网络优化厂家
  • 2022年中国企业500强榜单seo每日一贴
  • 网站建设购销合同seo网站关键词优化
  • 网站开发功能模块出错全球网站访问量排名
  • 深圳住建网开封seo推广
  • 连连跨境电商网站开发新闻头条今天最新消息
  • 关于加强建设旅游网站 重庆旅游局网站点击量统计
  • wordpress汉化安装教程惠州seo排名外包
  • 深圳市官方网站厦门关键词排名优化
  • 哪个网站做相册好百度行发代理商
  • 兔宝宝全屋定制衣柜官网澳门seo关键词排名
  • 怎样说服公司做网站百度号码认证平台
  • 营销型网站大全优化大师怎么强力卸载
  • 餐厅网站建设方案营销策划书范文1000字
  • 网站建设都需要买什么东西西安霸屏推广
  • 岳塘区建设路街道网站如何免费开自己的网站
  • 自己做网站好难挣钱国际网站平台有哪些
  • 物流建设网站总结报告2345浏览器
  • 花桥网站制作整站优化cms
  • 怎样把自己的网站上传媒体资源
  • 莒县做网站的公司seo店铺描述
  • 网站维护包括哪些内容百度收录链接提交入口