本文介绍: 2023.11.30 我们在 ModelScope 和 Hugging Face 上发布了Qwen-72B和Qwen-72B-Chat,它们在 3T 令牌上进行训练并支持 32k。另外,支持Ascend 910和Hygon DCU上的推理。检查ascend–support并dcu–support了解更多详细信息。我们还增强了 Qwen-72B-Chat 和 Qwen-1.8B-Chat 的系统提示功能,请参阅。,以及Qwen-1.8B和Qwen-1.8B-Chat。
2023.11.30 我们在 ModelScope 和 Hugging Face 上发布了Qwen-72B和Qwen-72B-Chat,它们在 3T 令牌上进行训练并支持 32k 上下文,以及Qwen-1.8B和Qwen-1.8B-Chat 。
我们还增强了 Qwen-72B-Chat 和 Qwen-1.8B-Chat 的系统提示功能,请参阅示例文档。
另外,支持Ascend 910和Hygon DCU上的推理。检查ascend–support并dcu-support了解更多详细信息。
网友讨论:
- Qwen 在所有测试中击败 GPT-4 的都是中文。虽然这对开源来说是个好消息,但 Qwen-72B 的最大性能看起来与 GPT-3.5 不相上下。
- 到目前为止,所有这些基准都是普通话的。在英语中它仍然落后于 GPT4。尽管如此:与 175b GPT4 相比,70b LLM 有多好!
- 为什么击败 GPT 4 如此困难且花费如此长的时间?
- 更令人印象深刻的是,这是在制裁下通过拆解 4090 显卡下实现的。
https://www.jdon.com/70415.html
原文地址:https://blog.csdn.net/cfy_banq/article/details/134747040
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_38568.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。