“I”:视频输入。GPT-4V对视频的理解还相当原始,因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系,但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。
与 GitHub Copilot 和 GPT-Engineer 等其他人工智能驱动的编码工具不同,它们在有效的代码集成和构建复杂项目方面遇到困难,ScriptGPT 在这些领域表现出色。它可以与这些工具一起使用来编写代码,同时将特定项目功能卸载到 ScriptGPT。
另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。
1.使用ChatGPT进行内容创建
英国广告标准局表示目前没有规定虚拟影响者必须声明是由AI生成。印度等国则规定必须透露人工智能起源。The Clueless通过Instagram标签揭露Aitana为AI模型,但许多其他虚拟影响者没有这样做。