【junglee rummy circle】智谱 AI 开源视频理解模型 CogVLM2
感谢IT之家网友 USER 的智谱线索投递! IT之家 7 月 12 日消息,开源智谱 AI 宣布,视频junglee rummy circle训练了一种新的理解视频理解模型 CogVLM2-Video,并将其开源。模型 据介绍,智谱当前大多数的开源视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的视频丢失,无法准确回答与时间相关的理解问题。一些专注于时间问答数据集的模型junglee rummy circle模型过于局限于特定格式和适用领域,使得模型失去了更广泛的智谱问答能力。 智谱 AI 提出了一种基于视觉模型的开源自动时间定位数据构建方法,生成了 3 万条与时间相关的视频视频问答数据。基于这个新数据集和现有的理解开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,模型训练出 CogVLM2-Video 模型。 智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。 IT之家附相关链接: 代码:https://github.com/THUDM/CogVLM2 项目网站:https://cogvlm2-video.github.io 在线试用:http://36.103.203.44:7868/ 广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
- 最近发表
- 随机阅读
-
- Bridge Fire in Southern California explodes over 10 times in size
- 2024年文字单机游戏:专业评测与推荐
- 小米获得独立造车资质:小米汽车生产企业由北汽变更为小米
- 曝iPhone 17 Pro Max将搭载全新4800万像素镜头
- Istanbul cat museum helps stray animals through art
- 微软呼吁5亿用户安装这个补丁!Outlook被指存在高风险安全漏洞
- 智己汽车于乾坤:低配车智驾配置不够,对端到端预测规划没什么用
- 罗马诺:洛孔加租借至塞维利亚今日接受体检
- 北京香山论坛:已有90余个国家和国际组织确认参会
- 养成锻炼习惯 提升身体素质 儿童青少年暑假运动正当时
- 《巫师3》官方发布联动周边 合味道x 赛博朋克x U.F.O.
- 诺奖得主吉野彰:2050年将是新能源汽车“改头换面”的关键节点
- Tokyo stocks end higher over improved sentiment
- 小米获得独立造车资质:小米汽车生产企业由北汽变更为小米
- 艾尔登法环首个大型DLC被喷太差了!粉丝:剧情干巴巴的
- “China Travel”火带动入境旅游热 外国游客:西安“好City”
- 香港警方捣破跨国赌博集团 涉案金额约2.5亿港元
- 《原神》新角色纳塔火神登场,官方CV名单一公布惊呆玩家
- 免费文字游戏:2024年最新版本更新
- “China Travel”火带动入境旅游热 外国游客:西安“好City”
- 搜索
-