CMLM-ZhongJing-中医出大语言模型了-仲景
中医大语言模型,灵感来自中国古代杰出医家张仲景的智慧。 该模型旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。然而,目前所有产生的结果仅供参考,应由经验丰富的专业人员提供诊断和治疗结果和建议。
指令数据构建
目前大多如Alpaca、Belle等工作基于self-instruct思路。self-instruct思路可以很好的调用大语言模型的知识,生成多样和具有创造性的指令,在常规问答场景可以快速构造海量指令实现指令调优。但在一些专业知识容错率较低的领域,比如医疗和法律场景,幻觉输出会导致噪声指令数据从而影响模型的准确性。典型的情况是比如不当的诊断及处方建议甚至影响患者生命,事实性错误的法律条文和法理的引用会造成权益人的败诉。因此,如何快速调用OpenAI API且不牺牲指令数据的专业性成为指令数据构造及标注等场景的重要研究方向。以下将简述我们的初步实验探索。
模型效果对比:
我们的测试数据基于真实高水平中医师的医学案例,通常为省级名老中医或国医大师级别的个案报告,以保证一定层面专业性。这样的数据较严格的属于分布外数据(学科分布外与训练数据集分布外,有别于传统训练集和验证集)。通过与文心一言、星火等大语言模型进行初步对比,发现我们的模型在基于300条中医方药数据构建的多样化诊疗分解指令数据集上具备良好的泛化能力,或许初步证实大语言模型与和人类一样,对于多元形式表征的文本内容更有助于学习隐喻的知识及逻辑。