本文介绍: FastChat用于对话机器人模型训练部署、评估的开放平台体验地址为:https://chat.lmsys.org/,该体验平台主要是为了收集人类的真实反馈,目前已经支持30多种大模型,已经收到500万的请求收集了10万调人类对比大模型数据可以排行榜https://huggingface.co/spaces/lmsys/chatbotarenaleaderboard)进行查看

       FastChat用于对话机器人模型训练部署、评估的开放平台体验地址为:https://chat.lmsys.org/,该体验平台主要是为了收集人类的真实反馈,目前已经支持30多种大模型,已经收到500万的请求收集了10万调人类对比大模型数据可以排行榜https://huggingface.co/spaces/lmsys/chatbotarenaleaderboard)进行查看

FastChat核心特性包括:

一、FastChat安装

方法一:pip安装

pip3 install "fschat[model_worker,webui]"

方法二:源码安装

Step克隆源码切换对应目录

git clone https://github.com/lm-sys/FastChat.gitcd FastChat

如果是mac,还需要执行如下代码

brew install rust cmake

Step安装相关的包​​​​​​​

pip3 install --upgrade pip  # enable PEP 660 supportpip3 install -e ".[model_worker,webui]"

二、FastChat聊天应用

下面展示一下不同模型以及不同大小启用聊天功能

Vicuna模型

模型大小 聊天命令 Hugging Face 
7B python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 lmsys/vicuna-7b-v1.5
7B-16k python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5-16k lmsys/vicuna-7b-v1.5-16k
13B python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.5 lmsys/vicuna-13b-v1.5
13B-16k python3 -m fastchat.serve.cli --model-path lmsys/vicuna-13b-v1.5-16k lmsys/vicuna-13b-v1.5-16k
33B python3 -m fastchat.serve.cli --model-path lmsys/vicuna-33b-v1.3 lmsys/vicuna-33b-v1.3

PS:对于16k模型,需要transformers>=4.31。

LongChat

模型大小 聊天命令 Hugging Face
7B python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-32k-v1.5 lmsys/longchat-7b-32k

FastChat-T5

模型大小 聊天命令 Hugging Face
3B python3 -m fastchat.serve.cli --model-path lmsys/fastchat-t5-3b-v1.0 lmsys/fastchat-t5-3b-v1.0

三、FastChat使用命令行进行推理

图片

PS可以使用style rich启用文本输出提高某些非 ASCII 内容文本传输质量。在某些终端可能无法正常工作

支持的模型

      支持的模型有LLama 2, Vicuna, Alpaca, Baize, ChatGLM, Dolly, Falcon, FastChat-T5, GPT4ALL, Guanaco, MTP, OpenAssistant, OpenChat, RedPajama, StableLM, WizardLM等。查看支持的全部模型和如何添加新模型可以参考https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

单GPU

       在单GPU下,执行如下命令

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5

      对于Vicuna-7B 模型大概需要14G显存,对于Vicuna-13B模型大概需要28G显存,如果显存不够,可以参考https://github.com/lm-sys/FastChat#not-enough-memory

多GPU

       支持多GPU并行推理命令如下

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --num-gpus 2

       有时候auto策略huggingface/transformers不能在多GPU间平衡,因此最好增加参数”–maxgpumemory“,该参数可以指定每个gpu用于存储模型权重最大内存。这允许它为激活分配更多的内存,因此可以使用更长的上下文长度或更大的批处理大小。最好的命令是:

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --num-gpus 2 --max-gpu-memory 8GiB

仅CPU

      在单CPU下,执行如下命令

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --device cpu

      对于Vicuna-7B 模型大概需要30G内存,对于Vicuna-13B模型大概需要60G内存

        如果使用AVX512_BF16/AMX加速CPU推理,命令如下:

CPU_ISA=amx python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --device cpu

Metal Backend (带苹果Silicon 或AMD GPU的Mac电脑)

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --device mps --load-8bit

       参数”–device mps“在torch>2.0情况下,可以加速mac GPU运算参数”–load-8bit“可以量化int8。Vicuna-7B在32GB内存的M1 Mac电脑 上推理时,每秒生成1 – 2个词。

Intel XPU(Intel Data Center和Arc A-Series GPU)

    安装Intel Extension for PyTorchhttps://intel.github.io/intel-extension-for-pytorch/xpu/latest/tutorials/installation.html)。设置OneAPI环境变量

source /opt/intel/oneapi/setvars.sh

使用 --device xpu 启用XPU/GPU加速。

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.3 --device xpu

Vicuna-7B 可以在Intel Arc A770 16GB上运行

显存不足

       对于显存不够的情况,可以参考量化或者offload策略部分解决,比如在命令行入参数”–load-8bit“或者”–cpuoffloading

python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5 --load-8bit

四、FastChat使用WEB GUI进行推理

图片

       使用web UI提供服务,需要三个主要组件:与用户接口的web服务器、托管一个多个模型的模型worker,以及协调web服务器和模型workercontroller。更多信息可以参考:https://github.com/lm-sys/FastChat/blob/main/docs/server_arch.md

启动controller

python3 -m fastchat.serve.controller

启动模型worker

python3 -m fastchat.serve.model_worker --model-path lmsys/vicuna-7b-v1.5

       启动成功后,会看到“Uvicorn running on …”,也可以通过如下命令来测试模型worker是否正确连接controller

python3 -m fastchat.serve.test_message --model-name vicuna-7b-v1.5

启动Gradio Web服务器

python3 -m fastchat.serve.gradio_web_server

五、FastChat模型评估

      FastChat使用多轮开放问题来评估模型。为了实现评估过程自动化建议采用像GPT-4这样的强大LLM评估模型的回复(https://github.com/lm-sys/FastChat/blob/main/fastchat/llm_judge)。

具体步骤如下

  1. 不同的模型生成回答:使用 qa_baseline_gpt35.py 获取ChatGPT的回答,或者指定模型检查点并运行 get_model_answer.py 获取 Vicuna 和其他模型的回答;

  2. 使用 GPT-4 生成评论:使用 GPT-4 自动生成评论。如果您无法使用 GPT-4 API,则可以手动执行步骤

  3. 生成可视化数据运行 generate_webpage_data_from_table.py 生成静态网站数据以便您可以可视化评估数据

  4. 可视化数据:在 webpage 目录下提供一个静态网站。您可以使用 python3 -m http.server 在本地提供网站服务

数据格式和贡献

      采用JSON Lines 编码数据格式进行评估,该格式包括有关模型、提示评论者、问题、回答和评论信息

六、FastChat模型微调

6.1 数据

       Vicuna 是通过使用从 ShareGPT.com 上收集的约 7 万个用户共享对话使用 LLaMA 基础模型进行微调而创建的,使用了公共的 API。为了确保数据质量,将 HTML 转换回 Markdown,并过滤掉一些不适当或低质量样本。此外,将较长的对话分割成适合模型最大上下文长度的较小段落(https://github.com/lm-sys/FastChat/blob/main/docs/commands/data_cleaning.md)。

      目前可能不会发布 ShareGPT 数据集,如果想尝试微调代码,可以使用 dummy_conversation.json(https://github.com/lm-sys/FastChat/blob/main/data/dummy_conversation.json)中的一些虚拟对话运行它,可以按照相同格式插入自己的数据。

6.2 代码和超参数

Hyperparameter Global Batch Size Learning rate Epochs Max length Weight decay
Vicuna-13B 128 2e-5 3 2048 0

6.3 使用本地GPU微调Vicuna-7B模型

pip3 install -e ".[train]"

使用以下命令使用 4 个 A100 (40GB) 对 Vicuna-7B 进行训练​​​​​​​

torchrun --nproc_per_node=4 --master_port=20001 fastchat/train/train_mem.py     --model_name_or_path meta-llama/Llama-2-7b-hf     --data_path data/dummy_conversation.json     --bf16 True     --output_dir output_vicuna     --num_train_epochs 3     --per_device_train_batch_size 2     --per_device_eval_batch_size 2     --gradient_accumulation_steps 16     --evaluation_strategy "no"     --save_strategy "steps"     --save_steps 1200     --save_total_limit 10     --learning_rate 2e-5     --weight_decay 0.     --warmup_ratio 0.03     --lr_scheduler_type "cosine"     --logging_steps 1     --fsdp "full_shard auto_wrap"     --fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer'     --tf32 True     --model_max_length 2048     --gradient_checkpointing True     --lazy_preprocess True

参考文献

[1] https://github.com/lm-sys/FastChat

[2] https://github.com/lm-sys/FastChat/blob/main/docs/openai_api.md

[3] https://github.com/lm-sys/FastChat/blob/main/fastchat/serve/huggingface_api.py

[4] https://github.com/lm-sys/FastChat/blob/main/docs/langchain_integration.md

原文地址:https://blog.csdn.net/wshzd/article/details/134762255

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_36158.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注