今天给大家分享款大模型Mini-Omni,这是全球首个端到端语音对话模型。
它可以在响应速度上实现媲美真人对话,而且在收到语音后能够快速作出相应。
先来看下效果:
可以看到,无论是响应速度和流畅性都是不错的,但有一点不足之处就是目前还不能说中文,即使你询问 Can u speak chinese? 它只会回答,Yes,I can.但不会真正说出中文。希望在不久会推出中文。
使用教程
基于此项目,小编制作了Windows一键启动包。
在运行前,请确保你的电脑系统为Windows10/11系统,本项目显卡不做要求
下载完成后解压路径不要出现中文。
如上图,下载完成后解压至本地 ,然后先启动后端,(等待命令行弹出如下)然后启动前端
启动前端后页面如下:
项目原理:
案例分析
作者通过一些具体案例展示了Mini-Omni在语音理解和推理方面的能力。研究表明,尽管在语音推理任务中模型的能力稍逊于文本推理,但通过批量生成方法,可以显著提升模型的语音推理能力。
Windows一键启动包下载
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END