Fay控制器及数字人全搭建你的虚拟主播、商品导购、语音助理、数字人互动、贾维斯等全能AI
FAY
数 字 人 Fay 控 制 器(这是元宇宙吗?)
Fay是一个完整的开源项目,包含Fay控制器及数字人模型,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。开发人员可以利用该项目简单地构建各种类型的数字人或数字助理。该项目各模块之间耦合度非常低,包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。每个模块都可以轻松地更换。
推荐集成的开源仓库
消费级pc大模型:https://github.com/THUDM/ChatGLM-6B
全平台抖音抓包:https://github.com/wwengg/douyin
UE5工程:https://github.com/xszyou/fay-ue5
实时照片驱动集成:https://github.com/waityousea/xuniren
一、Fay控制器用途
远程语音助理 PC demo
远程语音助理 android demo
与数字形象通讯(非必须,控制器需要关闭“面板播放”)
工程及运行包:https://github.com/xszyou/fay-ue5
发您的Fay运行效果视频至公众号领取最新的UE5模型哦
通讯地址: ws://127.0.0.1:10002(已接通)
消息格式: 查看 WebSocket.md
与远程音频输入输出设备连接(非必须,外网需要配置http://ngrok.cc tcp通道的clientid)
控制器与采用 socket(非websocket) 方式与 音频输出设备通讯
内网通讯地址: ws://127.0.0.1:10001
外网通讯地址: 通过http://ngrok.cc获取(有伙伴愿意赞助服务器给社区免费使用吗?)
消息格式: 参考 remote_audio.py
二、Fay控制器核心逻辑
注:
1、去API及会话管理功能将在下一版本发布;
2、以上每个模块可轻易替换成自家核心产品。
3、本地nlp(rasa+chatglm)的替换方法(https://m.bilibili.com/video/BV1D14y1f7pr?wxfid=o7omF0Vs6RIQFUGAzB6LXOBHa6Yg): 1、安装启动chatglm(github) 2、安装rasa 包:rasa、rasa-sdk 3、进入test/rasa目录启动actions:rasa run actions 4、启动rasa api server:rasa run --enable-api -p 5006 5、fay_core.py 引入nlp_rasa.py
目录结构
.
├── main.py # 程序主入口
├── fay_booter.py # 核心启动模块
├── config.json # 控制器配置文件
├── system.conf # 系统配置文件
├── ai_module
│ ├── ali_nls.py # 阿里云 实时语音
│ ├── ms_tts_sdk.py # 微软 文本转语音
│ ├── xf_aiui.py # 讯飞 人机交互-自然语言处理
│ ├── chatgpt.py # gpt3.5对接
│ ├── yuan_1_0.py # 浪潮.源大模型对接
│ └── xf_ltp.py # 讯飞 性感分析
├── bin # 可执行文件目录
├── core # 数字人核心
│ ├── fay_core.py # 数字人核心模块
│ ├── recorder.py # 录音器
│ ├── tts_voice.py # 语音生源枚举
│ ├── viewer.py # 抖音直播间接入模块
│ └── wsa_server.py # WebSocket 服务端
├── gui # 图形界面
│ ├── flask_server.py # Flask 服务端
│ ├── static
│ ├── templates
│ └── window.py # 窗口模块
├── scheduler
│ └── thread_manager.py # 调度管理器
└── utils # 工具模块
├── config_util.py
├── storer.py
└── util.py
三、升级日志
2023.04:
抖音直播互动数据对接更换成系统代理抓包pd解码的方式(运行直播伴侣即可);
提供本地nlp的对接代码(rasa+chatglm);
修复若干逻辑及说明错误;
提高抖音字幕监听的稳定性及包兼容性;
更新gpt接口:局部接入代理、prompt上补充角色模拟及简化回复内容(感谢 江湖墨明);
修复控制台输入测试消息的bug;
补充推荐两个优秀仓库:chatglm、全平台的抖音抓包。
2023.03:
增加edge-tts语音合成(免费)可替换azure-tts(支持情绪化语音);
替换flask发行版运行方式;
web socket接口增加数字人文字内容同步,以便数人字可以远程运行;
优化数字人数据web socket同步逻辑;
更改gpt 3.5对接方式。
2023.02:
提供chatgpt及yuan1.0作为选择。
2023.01:
控制器pc内网穿透,音频输入输出设备远程直连;
提供android 音频输入输出工程示例代码;
提供python音频输入输出工程示例代码(远程PC、树莓派等可用);
补传1.0语音指令音乐播放模块(暂不支持远程播放);
重构及补充若干工具模块:websocket、多线程、缓冲器、音频流录制器等;
修复1.x版本的多个bug;
集成看板娘;
2022.12:
上传bin目录(用于直播互动);
2022.11:
更新抖音直播获取粉丝互动数据的xpath;
2022.10.27:
更新mac上的麦克风参数;
解决mac上无法重启问题;
上传brew安装脚本。
2022.10.17:
更新语音指令;
补充人设语法;
四、安装说明
环境
Python 3.8.0 +
Chrome 浏览器 (若不开启直播功能,可跳过)
安装依赖
pip install -r requirements.txt
配置应用密钥
查看 AI 模块
浏览链接,注册并创建应用,将应用密钥填入 ./system.conf 中
启动
启动Fay控制器
python main.py
AI 模块
启动前需填入应用密钥
代码模块 描述 链接
./ai_module/ali_nls.py 阿里云 实时语音识别 https://ai.aliyun.com/nls/trans
./ai_module/ms_tts_sdk.py 微软 文本转情绪语音(可选) https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
./ai_module/xf_ltp.py 讯飞 情感分析 https://www.xfyun.cn/service/emotion-analysis
./utils/ngrok_util.py ngrok.cc 外网穿透(可选) http://ngrok.cc
./ai_module/yuan_1_0.py 浪潮源大模型(NLP 3选1) https://air.inspur.com/
./ai_module/chatgpt.py ChatGPT(NLP 3选1) *******
./ai_module/xf_aiui.py 讯飞自然语言处理(NLP 3选1) https://aiui.xfyun.cn/solution/webapi
五、使用说明
使用说明
抖音虚拟主播:启动bin/Release_2.85/2.85.exe + fay控制器(抖音输入源开启、展板播放关闭)+ 数字人 + 抖音伴侣(测试时直接通过浏览器打开别人的直播间);
现场推销货:fay控制器(展板播放关闭、填写商品信息)+ 数字人;
商品导购:fay控制器(麦克风输入源开启、展板播放关闭、填写商品信息、填写商品Q&A)+ 数字人;
语音助理:fay控制器(麦克风输入源开启、展板播放开启);
远程语音助理:fay控制器(展板播放关闭)+ 远程设备接入;
数字人互动:fay控制器(麦克风输入源开启、展板播放关闭、填写性格Q&A)+ 数字人;
数字人面试官及心理测评:联系免费领取;
贾维斯、Her:加入我们一起完成。
语音指令
关闭核心 关闭 再见 你走吧
静音 静音 闭嘴 我想静静
取消静音 取消静音 你在哪呢? 你可以说话了
播放歌曲(网易音乐库不可用,寻找替代中) 播放歌曲 播放音乐 唱首歌 放首歌 听音乐 你会唱歌吗?
暂停播放 暂停播放 别唱了 我不想听了