微语多模态
· 阅读需 5 分钟
微语多模态系统是一套先进的智能内容理解与生成解决方案,支持多种模态数据的分析、处理和转换,包括文本、图像、表格等多种数据形式的协同理解与处理。该系统可以实现跨模态的信息理解与生成,为用户提供更为丰富、精准的智能交互体验。
核心能力
-
多模态文档理解:支持PDF、DOCX、PPTX格式文档的图 片数据多模态内容理解,分为以下三类:
- 自然图片:提供自然语言描述,精准捕捉图像内容要点
- 数据类图片(柱状图、折线图、雷达图等):提供自然语言描述、图元信息(x轴y轴图例等含义)、数据变化趋势分析及CSV格式数据提取
- 流程类图片:提供自然语言描述、全流程名称解析及mermaid流程图语言转换
-
带图回答功能优化:
- 回答准确率显著提升
- 支持在回答中同时呈现图片与表格
- 单次回答最大支持图片返回数量从3提升至9
-
优化联网检索能力:
- 联网检索效果全面提升
- 检索后的网页内容自动解析并存储
- 自动生成联网检索网页集合知识库
- 支持检索结果预览
技术特点
模态融合技术
采用先进的多模态表示学习和跨模态对齐技术,实现不同模态数据(文本、图像、表格等)之间的深度融合和互补理解,使系统能够全面把握多模态内容的语义信息。
视觉理解能力
- 图像内容理解:能够准确识别和描述图像中的对象、场景、活动和关系
