北京2024年12月6日 /美通社/ -- 近日,浪潮信息发布"源"Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜单中斩获检索任务第一名,以78.41的平均精度刷新大模型RAG检索最高成绩,将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑,助力用户使用领先的RAG技术加速企业知识资产的价值释放。
Yuan-EB(版本号Yuan-embedding-1.0) 是专为增强中文文本检索能力而设计的嵌入模型(也称Embedding模型),在 "源2.0" 大模型的工作基础上,创新性地采用了"源2.0-M32"大模型进行数据重写与合成,并通过索引技术、样本排序等系列方法完成高质量微调数据集构建,能够有效提升RAG系统的检索精度。
C-MTEB是目前业内最权威的嵌入模型测试榜单。其中,检索任务(Retrieval)是检索增强生成(RAG)场景下最为重要、应用最广泛的任务能力,考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。"源"Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集,实现了业界领先的海量文本检索精度。
“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一
"源"Yuan-EB助力RAG检索精度新高
嵌入模型在RAG流程中扮演着关键角色,它能够将复杂的高维数据(例如文本、图像或音频)转换为机器可理解的向量形式,直接决定了RAG检索的精准性和效率。
"源"Yuan-EB通过数据准备与模型微调两个方面的技术创新,实现了模型精度的大幅提升:
- 在数据方面,基于"源2.0"微调阶段的问答数据进行清洗与筛选,构建问题(query)与文本(corpus)数据集;使用"源2.0-M32"对C-MTEB 训练数据进行重写与合成,通过索引技术与排序模型进行高效的难负样本提取,完成大规模难负例样本挖掘,形成高质量微调数据集;
- 在微调方面,通过两个阶段的领先微调方法实现模型能力提升。第一阶段,使用各个领域(医疗、新闻、长文本、娱乐等方向)的大规模数据进行对比学习训练;第二阶段,采用"源2.0-M32"生成的合成数据进一步微调,并使用MRL方法完成"源"Yuan-EB训练;
"源"Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择,能够在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。
元脑企智EPAI集成"源"Yuan-EB,加速知识库构建与性能提升
目前,"源"Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用"源"Yuan-EB,并结合EPAI自研的多阶段RAG技术,零代码、低成本地基于企业数据构建大模型知识库应用。
企业大模型开发平台"元脑企智"EPAI(Enterprise Platform of AI),是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台,提供数据准备、模型训练、知识检索、应用框架等系列工具,支持调度多元算力和多模算法,帮助企业高效开发部署生成式AI应用、打造智能生产力。
元脑企智EPAI已经支持超过13种类型文档的信息识别与提取,结合创新的多级混合检索策略,有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果,帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答,确保专业场景下大模型生成内容的准确性和可靠性,加速大模型创新力释放。
- 广东省药监局调研恒昌医药集团,聚焦药品流通产业高质量发展
- 博泽出席德总理朔尔茨访华德企圆桌,传递对中国市场的坚定信心
- Equativ 增强了策展服务,在不断变化的身份识别环境中推动更高的可寻址性
- 服装行业开春太火爆!订单暴涨超300%!
- 我们时常把创业想得太过简单,认为获得成功轻而易举
- 春节将至,抢票再次成为广大网友关注的热门话题
- 供应“安全感”超过红海“危机感”?欧洲天然气价格大跌
- 日股盘中再破34年新高,今年还涨得动吗?
- 美媒自揭赚钱套路:兜售高校排名“徽章”
- “太空葬”来了?最高收费1.3万美元
- 年化收益8%的理财,到期只能换成鱼子酱和酒?北京多名老人中招!
- 关于印发2024年永城市辖区商品房契税缴纳财政补贴办法的通知
- 纯净清透!赵今麦穿一袭白衣在湖畔漫步
- 女团AKB48成员确诊新冠 曾与团内另一人有过接触
- 超暖心!霉霉捐21万元帮18岁女学生实现大学梦