当前位置：首页 > 休闲

中国自研“智象视觉大模型” 将生命力注入你的故事

微信图片_20240318132305

“在AIGC的中国自研智象路上，我们可以说是视觉生命一路狂奔。”近日，大模智象未来（HiDream.ai）的力注创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的故事生成式人工智能初创公司，其自主研发的中国自研智象“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，视觉生命可实现文本、大模图片、力注视频等多模态内容的故事生成。

2024年第一季度，中国自研智象智象未来计划推出重大迭代的视觉生命图像基础模型。这一技术也将持续赋能视频生成领域，大模原有视频基础模型预计在3月底实现大幅升级。力注新一版模型将在文本与视频的故事一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

微信图片_20240318132258

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

中国自研“智象视觉大模型” 将生命力注入你的故事

相关推荐

从机器授精到AI辅助生育

2023年我国餐饮收入超5万亿元！美食撬动消费新活力

中国足协原主席陈戌源一审被控受贿8103万余元

拉窗帘、挂“笑脸”、按门铃……他们每天跟独居老人“对暗号”

整治农贸市场营造良好环境

铁路12306网优化升级候补购票功能进一步提高旅客候补购票成功率

中国自研“智象视觉大模型” 将生命力注入你的故事

相关推荐

从机器授精到AI辅助生育

2023年我国餐饮收入超5万亿元！美食撬动消费新活力

中国足协原主席陈戌源一审被控受贿8103万余元

拉窗帘、挂“笑脸”、按门铃……他们每天跟独居老人“对暗号”

整治农贸市场 营造良好环境

铁路12306网优化升级候补购票功能 进一步提高旅客候补购票成功率

整治农贸市场营造良好环境

铁路12306网优化升级候补购票功能进一步提高旅客候补购票成功率