视频到文本生成(Video-to-Text […]
视觉基础模型(Visual Foundati […]
图文匹配(Image-Text Matchi […]
图像字幕生成(Image Captionin […]
视频理解(Video Understandi […]
图像识别是指计算机系统通过算法自动分析和理解 […]
卷积神经网络(Convolutional N […]
图像到文本生成(Image-to-Text […]
视觉语言模型(VLM,Visual Lang […]