马斯克旗下的人工智能公司 xAI 近日推出了首个多模态模型 Grok-1.5 Vision,该模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域,Grok-1.5 Vision 的表现可媲美现有的前沿多模态模型。在 RealWorldQA 基准测试中,Grok-1.5 Vision 的成绩比 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 等主流竞争对手更为优异。