Kimi-VL: 月之暗面推出的开源视觉语言模型
Kimi-VL 是由北京月之暗面公司推出的一款开源视觉语言模型(VLM),具备原生分辨率图像理解、多模态推理...
LHM:阿里通义开源的单张照片生成可驱动 3D 数字人模型
LHM 是阿里通义开源的单张照片生成可驱动 3D 数字人模型,具备高质量建模与动作还原能力。用户仅需上传...
MagicColor – 香港科技大学推出的基于扩散模型的多实例草图自动上色框架
MagicColor 是由香港科技大学团队提出的一种基于扩散模型的多实例草图自动上色框架,旨在解决传统手工上...
Dapr Agents – Dapr 推出的开源智能体开发框架
Dapr Agents是什么? Dapr Agents 是由 Dapr 官方推出的开源智能体开发框架,专为构建高可扩展、多智...
Nova Act:Amazon推出的AI智能体,可操作网页浏览器模拟人类完成任务
Nova Act 是由 Amazon AGI Lab(通用人工智能实验室)推出的首个通用 AI 智能体产品,具备自动操控网页...
Runway Gen-4 – Runway 推出的第四代视频生成模型
Runway Gen-4 是由 Runway 推出的第四代视频生成模型,具备高度一致性、多视角控制、风格保持和镜头构图...
AutoGLM沉思:智谱推出的AI智能体应用
AutoGLM沉思是由智谱 AI 推出的自主智能体应用,具备类人推理和行动能力,能够理解复杂开放式问题,并通...
Mureka O1 – 昆仑万维推出的全球首款音乐推理大模型
Mureka O1是昆仑万维推出的全球首款AI音乐推理大模型,基于Mureka V6升级,引入CoT技术,支持纯音乐及10...
Gemini 2.5 Pro-Gemini 2.5 Pro:谷歌推出的最新多模态AI模型
Gemini 2.5 Pro是谷歌推出的一款具备高级推理能力的人工智能模型,支持文本、图像、音频和视频等多种输...
Qwen2.5-VL-32B-Instruct
Qwen2.5-VL-32B-Instruct 是阿里开源的多模态大模型(32B参数),支持视觉+语言+数学推理,在图像理解(...