小米自研声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

2025-08-04 11:29:51 来源:IT之家
小米自研声音理解大模型 MiDashengLM-7B 发布并全量开源,22 个公开评测集刷新最好成绩

  8 月 4 日消息,小米自研声音理解大模型 MiDashengLM-7B 正式发布,并宣布全量开源,为声音理解领域带来新的技术突破与活力。

  据小米官方介绍,MiDashengLM-7B 在速度和精度上实现了双突破。其单样本首 Token 延迟仅为同类模型的 1/4.这意味着模型在处理音频输入时,能够以极快的速度给出初始反馈,大幅减少等待时间;在同显存下,并发量超 20 倍,大大提升了数据处理效率,能够同时应对多个音频任务。在性能表现上,该模型在 22 个公开评测集上刷新了多模态大模型的最好成绩(SOTA),充分展现了其卓越的声音理解能力。

  MiDashengLM-7B 的技术架构十分独特,它基于 Xiaomi Dasheng 作为音频编码器,结合 Qwen2.5-Omni-7B Thinker 作为自回归解码器,并通过创新的通用音频描述训练策略,成功实现了对语音、环境声音和音乐的统一理解。这种对不同类型声音的融合理解能力,在实际应用中具有极大的价值。

  回溯到 2024 年,小米发布的 Xiaomi Dasheng 声音基座模型便已在国际上崭露头角,首次突破 AudioSet 50+ mAP,在 HEAR Benchmark 环境声、语音、音乐三大领域建立了领先优势,并且这一优势一直保持至今。在小米的智能家居和汽车座舱等场景中,Xiaomi Dasheng 已有超过 30 项落地应用。比如行业首发的车外唤醒防御功能,能有效避免车辆在不必要的情况下被唤醒;手机音箱全天候监控异常声音,为家庭安全保驾护航;“打个响指” 就能实现环境音关联 IoT 控制,为用户带来便捷的智能生活体验;还有小米 YU7 上搭载的增强哨兵模式划车检测,背后都是 Xiaomi Dasheng 作为核心算法在提供支持。

  MiDashengLM 的训练数据全部来源于公开数据,这使得模型在开源后,更易于被开发者和研究人员理解与研究。模型以宽松的 Apache License 2.0 发布,无论是学术研究还是商业应用,都能够方便地使用,这对于推动声音理解技术在不同领域的发展具有积极意义。

  小米强调,与 Qwen2.5-Omni 等未公开训练数据细节的模型不同,MiDashengLM 完整公开了 77 个数据源的详细配比,并且在技术报告中详细介绍了从音频编码器预训练到指令微调的全流程。这种透明化的操作,为行业内的技术交流与合作提供了良好范例,有助于整个声音理解领域技术水平的提升。

  作为小米 “人车家全生态” 战略的关键技术,MiDashengLM 的跨领域能力优势明显。它不仅能精准听懂用户周围发生的事情,还能深入分析这些事情背后的隐藏含义,极大地提高了用户场景理解的泛化性。基于 MiDashengLM 的模型通过自然语言与用户交互,能够提供更加人性化的沟通和反馈。在用户练习唱歌或练习外语时,它可以提供发音反馈,并制定针对性的提升方案;当用户驾驶车辆时,能实时解答用户关于环境声音的提问。

  MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。目前,小米已着手对该模型做进一步的计算效率升级,目标是实现终端设备上的离线部署,这将使得模型在一些网络条件不佳或者对隐私性要求较高的场景下,依然能够稳定运行。同时,小米还计划完善基于用户自然语言提示的声音编辑等更全面的功能,不断拓展模型的应用边界,为用户带来更丰富、更智能的声音相关服务。

免责声明:本文仅代表作者个人观点,与朝闻天下无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们联系,本网站将在规定时间内给予删除等相关处理.

猜你喜欢

OpenAI 奥尔特曼:考虑收购 Chrome,计划投资脑机接口公司,将投巨资建数据中心

8月16日消息,当地时间周四,OpenAICEO奥尔特曼在旧金山与TheVerge记者共进晚餐时,披露了公司一系列未来的宏大计划。其中既有可能投入数万亿美元建设数据中心,也有对收购谷歌Chrome浏览

AI 投资

2个月前

美国宇航局研发 O-PTIR 技术,助力高效识别火星岩石成分

8月16日消息,据科技媒体scitechdaily8月15日博文报道,美国宇航局的科学家成功研发出O-PTIR光热红外光谱技术,该技术未来可应用于太空岩石检测,能高效区分不同成分并敏感检测有机物。20

美国 技术

2个月前

HKC 蚂蚁电竞 ANT257PF 显示器将于 8 月 19 日在京东拍卖

8月16日消息,HKC蚂蚁电竞宣布,旗下全球首款原生750Hz刷新率显示器ANT257PF将于8月19日晚8点在京东拍卖频道以“1元起拍”的形式开启拍卖。成功拍到该产品的用户,将获得TE溯游戏战队俱乐

蚂蚁 京东

2个月前

FlexiVol 全息 3D 投影技术问世:无需头显,可直接用手交互空中内容

8月16日消息,据科技媒体Neowin报道,西班牙纳瓦拉公立大学(UPNA)的研究团队展示了一种名为“FlexiVol”的全息3D投影技术。该技术的突出特点是,所呈现的全息内容无需用户佩戴头显,就能清

技术

2个月前

iOS 26 提醒事项升级:原生支持自动分类,AI 助力任务智能分组

8月16日消息,科技媒体9to5Mac于8月15日发布博文报道,苹果在iOS26的提醒事项(Reminders)应用中,新增了原生自动分类功能——借助Apple智能(AppleIntelligence

iOS 26 AI

2个月前

Windows 11 预览版 Build 26200.5751/26120.5751 推送:Copilot + 功能升级,多场景体验优化

8月16日消息,微软今日向Windows11Dev开发频道推送了预览版Build26200.5751(KB5064071),同时也为Beta频道推送了Build26120.5751(KB5064071

功能 优化

2个月前