分类
CC-OCR | 通义千问团队提出一个全面且具有挑战性的多模态模型阅读能力评估基准
导读对大型多模态模型 (LMMs) 来说,阅读能力至关重要。阅读能力不仅包括阅读纯文本,还涉及位置定位、结构化布局以及格式化输入和输出。
国内AI领域领航者:讯飞星火、通义千问、Kimi、豆包AI、商汤AI、文心一方等12大AI模型谁最厉害?(都附链接)
从企业背景、功能与特长以及适合生成的内容三个方面进行介绍国内这12大AI模型,并附上各自官网链接。
LLM大语言模型到LVM大视觉模型的跃迁之路 —— 从LLaMA-VID多模态大模型突破说起
随着算法和算力的发展,LVM模型有望成为一个强有力的统领性范式。它继承了LLM的思想也面临更艰巨的挑战。但初步结果令人鼓舞









