视觉问答(Visual Question A […]
多模态融合(Multimodal Fusio […]
跨模态检索(Cross-Modal Retr […]
视频生成(Video Generation) […]
视频理解(Video Understandi […]
图像生成是指利用人工智能技术,特别是深度学习 […]
图像识别是指计算机系统通过算法自动分析和理解 […]
语音识别(Speech Recognitio […]
语音合成(Speech Synthesis) […]
情感识别,亦称情感分析(Sentiment […]