2026年1月18日AI前沿情报速递
今日AI领域呈现多维度创新突破态势,大模型应用落地加速,电商与金融场景AI深度融合,多模态技术持续迭代升级。国产大模型生态构建取得实质性进展,开源社区活跃度提升,同时全球科技巨头在AI基础设施与垂直领域应用上展开新一轮竞争。资本市场对AI创新企业保持高度关注,医疗、教育、娱乐等行业的AI应用正从概念验证阶段迈向规模化商业落地。
京东上线AI年货地图,购物场景智能化升级
京东于1月18日正式推出AI年货地图功能,该功能基于大语言模型与计算机视觉技术,能够根据用户画像、地域特点和消费习惯,智能推荐个性化年货商品并提供一站式购物导航。用户通过自然语言交互即可完成商品查询、比价和购买全流程,AI助手还能提供春节送礼建议和节日文化解读。
此次功能标志着京东AI技术在电商场景的深度应用,预计将提升用户购物体验并推动春节期间销售额增长。京东表示,未来将进一步拓展AI年货地图的功能边界,计划加入AR虚拟试穿、家庭年货搭配方案等创新特性,强化其在智能零售领域的竞争优势。
支付宝首发ACT协议,开启AI交易新范式
支付宝于今日正式发布自主创新的ACT(AI-Contract-Transaction)协议,该协议旨在解决AI模型与智能合约之间的交互难题,为AI服务交易提供标准化框架。ACT协议结合了区块链技术的不可篡改性与AI的智能决策能力,实现了AI服务从调用、计费到结算的全流程自动化管理。
这一协议的推出将极大促进AI服务的商业化进程,降低中小企业使用AI技术的门槛。支付宝技术团队透露,ACT协议已与多家AI模型提供商达成合作,首批接入的AI服务涵盖智能客服、图像识别和自然语言处理等领域,预计年内将支持超过1000种AI服务的安全交易。
谷歌Veo 3.1重磅升级,视频生成能力实现质的飞跃
谷歌于1月18日宣布其AI视频生成模型Veo 3.1正式上线,相比前代版本,新模型在视频连贯性、细节表现和场景理解方面实现了显著提升。Veo 3.1能够根据文本描述生成长达120秒的高清视频,支持4K分辨率输出,并新增了多镜头切换和动态特效生成功能,大幅提升了视频生成的专业水准。
此次升级标志着谷歌在AIGC领域的竞争力进一步增强,将对影视制作、广告创意和短视频行业产生深远影响。谷歌表示,Veo 3.1已向部分创作者开放测试,并计划在未来几个月内逐步扩大用户范围,同时探索与YouTube平台的深度整合,为内容创作者提供更强大的AI辅助工具。
千问全面接入阿里生态,AI助手能力边界持续拓展
阿里巴巴于今日宣布,其自研大模型千问已完成对阿里生态系统的全面接入,覆盖淘宝、天猫、阿里云、钉钉等核心业务场景。用户现在可以在这些平台中无缝切换使用千问AI助手,实现跨平台智能服务,包括购物咨询、云计算资源调配和企业协作等多元化功能。
这一整合标志着阿里巴巴AI战略进入新阶段,通过打通各业务线的数据和能力,构建了更完整的AI服务闭环。阿里云智能事业群负责人表示,未来将进一步深化千问与实体经济的融合,计划在制造业、物流和金融服务等领域推出行业定制化AI解决方案,助力企业数字化转型。
百度文心ERNIE-5.0-0110正式发布,多模态能力全面增强
百度于1月18日发布新一代大模型文心ERNIE-5.0-0110,该版本在语言理解、逻辑推理和跨模态融合方面取得重大突破。新模型支持100多种语言的互译,新增了长文档智能摘要和复杂问题分解能力,并强化了图像生成与视频理解功能,综合性能较上一代提升40%以上。
此次发布巩固了百度在AI技术领域的领先地位,特别是在中文语义理解和多模态应用方面。百度AI平台负责人透露,ERNIE-5.0-0110已开始向企业客户提供服务,并将在未来三个月内逐步开放个人用户使用,同时探索与百度搜索、百度地图等产品的深度融合,打造更智能的用户体验。
机器人租赁平台擎天租完成融资,AI+机器人商业模式获资本认可
专注于机器人租赁服务的平台"擎天租"于今日宣布完成B轮融资,融资金额达5亿元人民币,由红杉资本领投。本轮融资将主要用于扩大机器人种类、优化智能调度系统和拓展服务网络。目前,擎天租已与国内外20余家机器人制造商达成合作,提供工业、物流和家庭场景的机器人租赁服务。
此次融资反映了资本市场对AI+机器人商业模式的看好,预示着机器人服务化将成为行业新趋势。擎天租创始人表示,公司将利用资金加速技术研发,重点提升机器人的自主决策能力和远程运维功能,并计划在未来两年内服务覆盖全国100个城市,成为国内领先的机器人综合服务平台。
实时世界模型PixVerse R1发布,虚拟与现实边界进一步模糊
AI研究团队于1月18日推出实时世界模型PixVerse R1,该模型能够以每秒30帧的速度生成高保真度虚拟世界,并支持实时交互。PixVerse R1结合了神经渲染和物理模拟技术,可以准确模拟光照变化、物体运动和用户交互,为元宇宙、游戏开发和虚拟培训等领域提供了强大的技术支撑。
这一突破性技术将大幅降低虚拟内容制作成本,加速元宇宙生态建设。研究团队透露,PixVerse R1已与多家游戏公司和教育机构达成合作,将应用于虚拟场景生成和沉浸式教学内容开发。未来版本计划加入多用户协同功能和更精细的物理模拟,进一步提升虚拟世界的真实感和交互性。
混元3D Studio 1.2全面开放公测,3D创作门槛大幅降低
腾讯混元团队于今日宣布其3D内容创作平台混元3D Studio 1.2进入全面公测阶段。新版本增加了笔刷交互、八视图输入等创新功能,使创作者能够更直观地进行3D建模和纹理设计。平台内置的AI辅助系统能够自动优化模型结构、生成高分辨率纹理,并支持一键动画生成,大幅提升了3D内容创作效率。
这一平台的开放标志着腾讯在AIGC领域的重要布局,将推动3D内容创作的民主化。腾讯混元负责人表示,未来将持续优化平台功能,计划加入实时协作和云端渲染能力,并探索与微信、QQ等社交平台的整合,让普通用户也能轻松创建和分享高质量的3D内容,丰富元宇宙生态。
千问Qwen3-VL双子星开源,多模态AI研究迎来新突破
阿里巴巴于1月18日开源其多模态大模型千问Qwen3-VL双子星,该模型在视觉-语言理解与生成任务上取得了领先性能。双子星架构分别针对图像理解和视频理解进行了优化,支持高分辨率图像输入和长视频分析,能够准确描述复杂场景并回答相关问题,为多模态AI研究提供了新的技术范式。
此次开源将促进多模态AI技术的开放协作与创新发展。阿里巴巴表示,已为Qwen3-VL双子星提供了完整的训练代码和预训练模型,并计划建立专门的社区支持开发者使用。未来,团队还将持续迭代模型性能,探索与更多开源工具的集成,推动多模态技术在医疗、教育和创意设计等领域的应用落地。
美团LongCat-Flash-Thinking-2601发布,工具调用能力登顶开源SOTA
美团AI团队于今日发布新型大模型LongCat-Flash-Thinking-2601,该模型在工具调用能力测试中取得了开源模型的最佳成绩。LongCat结合了长链思维推理和快速决策机制,能够准确理解复杂任务需求,自主选择并调用合适的工具链,在代码生成、数据分析和自动化流程等任务中表现出色。
这一成果展现了美团在AI基础研究领域的实力,为企业级AI应用提供了新的技术选择。美团AI平台负责人表示,LongCat模型已应用于美团外卖、酒店预订等核心业务场景,显著提升了运营效率和用户体验。未来,团队将进一步优化模型性能,计划开放更多API接口,支持企业客户定制化应用,助力各行各业数字化转型。
阶跃星辰原生语音推理模型Step-Audio-R1.1登顶榜首
阶跃星辰于1月18日发布其原生语音推理模型Step-Audio-R1.1,该模型在语音识别、情感分析和语音合成等多项评测中均取得领先成绩。Step-Audio-R1.1采用了创新的端到端架构,能够实时处理复杂语音场景,支持多语种识别和方言理解,并具备出色的抗噪能力和口音适应性。
这一技术突破将大幅提升人机交互的自然度和智能化水平。阶跃星辰创始人表示,Step-Audio-R1.1已应用于智能客服、语音助手和会议系统等多个场景,显著改善了用户体验。未来,公司将继续深耕语音AI技术,计划推出更具个性化的语音合成系统和跨语种实时翻译功能,打造全方位的语音智能解决方案。



