零样本图像生成(Zero-Shot Imag […]
图像字幕生成(Image Captionin […]
视觉问答(Visual Question A […]
多模态融合(Multimodal Fusio […]
跨模态检索(Cross-Modal Retr […]
视频生成(Video Generation) […]
视频理解(Video Understandi […]
图像生成是指利用人工智能技术,特别是深度学习 […]
图像识别是指计算机系统通过算法自动分析和理解 […]
语音合成(Speech Synthesis) […]