OneThingAI上新9款模型，解锁AI应用新可能 - 网心科技

首页

新闻详情

OneThingAI上新9款模型，解锁AI应用新可能

2025年06月06日

当现实中的信息更多以直观复杂的图像、图表、视频形式呈现（而非文字）时，传统AI模型的文字依赖特性逐渐难以满足用户需求。鉴此，在日前发布的OneThingAI模型API服务基础上，网心科技今天再次上线了9款主流视觉语言模型，不仅能够实现对图像与视频画面的智能解析，更能通过逻辑推理来解决复杂问题或提供决策参考。

OneThingAI模型API服务

本次上线的模型包含：

通义千问 Qwen3系列

采用混合专家（MoE）架构，支持119 种语言，可灵活切换「快思考」与「慢思考」模式。在多个权威基准测试中，Qwen3在通用对话、数学推理、代码生成等多个高难度、关键性指标上取得了极高分数，展现了其强大的综合能力，无疑是当前开源模型的第一梯队。

Qwen3与主流模型性能对比

通义千问 Qwen-2.5-VL系列

旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，在包括大学水平的问答、数学、文档理解、视觉问答、视频理解和视觉智能体方面表现出色，全面超越GPT-4o与Claude3.5。

Qwen2.5-VL-72B 13项权威评测

通义万相Wanx-V2系列

具备分析图片内容并生成创意描述的能力，还可极速生成细节丰富的图像，生成效率高。在艺术创作、影视概念设计、质感人像、广告设计等场景中表现出色。

Flux-dev

由Black Forest Labs开源，参数规模达12B，在美学评分ELO上超越SD3和MJ6，擅长图片修复与风格转换，支持高分辨率图像生成与逼真人体解剖学细节。

美学评分ELO

以下，我们基于通义千问Qwen系列模型进行简单测试：

图像识别

下图示例中，我们拼凑了16张相似的人眼较难区分的面包和小狗图片，借助OneThingAI平台的Qwen-2.5-VL系列模型来识别并按顺序标记图片类型。结果显示，无论是面包还是小狗，模型都能精确地区分和识别。

在专业领域，Qwen-2.5-VL系列模型还可对医学影像进行智能分析并提供决策参考。以鼻窦炎CT影像为例，模型能够精准识别鼻窦区域的黏膜厚度、窦腔积液、骨质结构改变等特征，为临床诊断提供量化分析依据。

文字识别与理解

Qwen-2.5-VL系列模型具备国内领先的图像识别能力，比普通的文件扫描和OCR识别软件更加准确，例如收据单/快递单等潦草的手写内容都可以准确识别。

此外，Qwen3模型还支持多语言理解，能精准识别柱状图中美国、加拿大、英国、日本在食品、住房等5类支出的占比数值并输出结构化数据，同时基于结构化数据生成演示代码。

OneThingAI打造专属AI应用仅需三步！

DeepSeek-R1-0528上线，三步极速接入

业务咨询