当前位置: 首页 > news >正文

和黑人做网站最近一个月的热点事件

和黑人做网站,最近一个月的热点事件,页面设计说明怎么写,wordpress批量管理本文是github项目llama-factory的使用教程 注意,最新的llama-factory的github中训练模型中,涉及到本文中的操作全部使用了.yaml配置。 新的.yaml的方式很简洁但不太直观,本质上是一样的。新的readme中的.yaml文件等于下文中的bash指令 PS: …
本文是github项目llama-factory的使用教程
注意,最新的llama-factory的github中训练模型中,涉及到本文中的操作全部使用了.yaml配置。
新的.yaml的方式很简洁但不太直观,本质上是一样的。新的readme中的.yaml文件等于下文中的bash指令

PS: 大模型基础和进阶付费课程(自己讲的):《AIGC大模型理论与工业落地实战》-CSDN学院 或者《AIGC大模型理论与工业落地实战》-网易云课堂。感谢支持!

一,数据准备和模型训练

step1-下载项目:

​ 从github中克隆LLaMa-Factory项目到本地

step2-准备数据:

​ 将原始LLaMA-Factory/data/文件夹下的dataset_info.json,增加本地的数据。注意,本地数据只能改成LLama-Factory接受的形式,即本地数据只能支持”promtp/input/output“这种对话的格式,不支持传统的文本分类/实体抽取/关系抽取等等schema数据,如果需要,请想办法改成对话形式的数据。

​ 你需要参考其中的一个文件和它的配置,例如:alpaca_gpt4_data_zh.json,训练和验证数据同样改成这种格式,并在dataset_info.json中新增一个你自己的字典:

{"alpaca_en": {"file_name": "alpaca_data_en_52k.json","file_sha1": "607f94a7f581341e59685aef32f531095232cf23"
},  
..."your_train": {"file_name": "/path/to/your/train.json","columns": {"prompt": "instruction","query": "input","response": "output"}},
...

​ 其中的key,your_train,将在训练/测试的shell命令中使用

step3-模型训练:

​ 数据准备好之后,编写shell脚本训练模型,以mixtral为例根目录下新建run_mixtral.sh

需要改动的主要是:model_name_or_path,dataset,output_dir;和其他可选的改动信息,例如save_steps,per_device_train_batch_size等等。

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \--stage sft \--do_train \--model_name_or_path /path/to/your/Mixtral-8x7B-Instruct-v0.1 \--dataset my_train \--template default \--finetuning_type lora \--lora_target q_proj,v_proj \--output_dir ./output/mixtral_train \--overwrite_output_dir \--overwrite_cache \--per_device_train_batch_size 4 \--gradient_accumulation_steps 4 \--lr_scheduler_type cosine \--logging_steps 10 \--save_steps 200 \--learning_rate 5e-5 \--num_train_epochs 1.0 \--plot_loss \--quantization_bit 4 \--fp16
step4-模型融合

​ 模型融合的意义在于合并训练后的lora权重,保持参数和刚从huggingface中下载的一致,以便更加方便地适配一些推理和部署框架

​ 基本流程/原理:将微调之后的lora参数,融合到原始模型参数中,以mixtral为例新建:LLama-Factory/run_mixtral_fusion.sh:

python src/export_model.py \--model_name_or_path path_to_huggingface_model \--adapter_name_or_path path_to_mixtral_checkpoint \--template default \--finetuning_type lora \--export_dir path_to_your_defined_export_dir \--export_size 2 \--export_legacy_format False
step5-模型推理

​ 模型推理即模型在新的验证集上的推理和验证过程

​ 指令和训练的基本一致,只是差别几个参数:

        1.增加了do_predict,2.数据集改成一个新的eval数据集

​ LLama-Factory/runs/run_mixtral_predict.sh

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \--stage sft \--do_predict \--model_name_or_path /path/to/huggingface/Mixtral-8x7B-Instruct-v0.1 \--adapter_name_or_path /path/to/mixtral_output/checkpoint-200 \--dataset my_eval \--template default \--finetuning_type lora \--output_dir ./output/mixtral_predict \--per_device_eval_batch_size 4 \--predict_with_generate \--quantization_bit 4 \--fp16
step6-API接口部署

部署接口的作用是可以让你把接口开放出去给到外部调用

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python src/api_demo.py \--model_name_or_path path_to_llama_model \--adapter_name_or_path path_to_checkpoint \--template default \--finetuning_type lora

http://www.ds6.com.cn/news/51280.html

相关文章:

  • 网站建设域名未拿到百度热搜广告设计公司
  • 海南做网站的公司哪家好苏州首页关键词优化
  • 摄影网站导航百度推广后台登录页面
  • ps做图下载网站怎样注册个人网站
  • 美国主机教育网站建设百度小说搜索风云排行榜
  • 大网站如何优化宁波网站推广找哪家
  • 欢迎回来请牢记网站域名淘宝seo
  • 镇江网站制作百度推广外推联系方式
  • asp.net 做网站源代码精准网站seo诊断报告
  • 做html的简单网站百度推广关键词和创意
  • 网站模板论坛网上营销新观察网
  • 文明网站机制建设朝阳区seo技术
  • 阿里巴巴国际站怎么做网站模版如何自己开发软件app
  • 免费做试卷的网站或试卷东莞网站推广营销网站设计
  • 案例应聘网络营销做网站推广太原seo排名优化公司
  • 网站设计与制作报价好的网站或网页
  • 正品查询网站怎么做最新热搜新闻事件
  • 佛山优化网站公司有创意的网络营销案例
  • 做影视网站被起诉网络营销咨询公司
  • 苏州做网站的专业公司哪家好沈阳seo排名收费
  • 为什么做电影网站没有流量怎么查询最新网站
  • 推荐优秀网站网站收录服务
  • 住房和城乡建设部办公厅网站竞价推广招聘
  • 网站知识介绍发稿网
  • 旅行社网站开发网站制作论文
  • 政府网站html模板下载sem竞价托管价格
  • 网站建设合同付款比例免费网页制作网站
  • 如何 网站推广企业查询宝
  • 沧州网站建设公司电话天天外链官网
  • 网站建设理念广告营销