腾讯和OpenAI盯上了同一条赛道

图为:腾讯文生图负责人芦清林

AI多模态大模型持续火热,腾讯也出招了

5月14日,腾讯宣布旗下的混元文生图大模型全面升级,该模型采用了与Sora一致的DiT架构(Diffusion With Transformer),不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

在腾讯方面看来,DiT架构很可能成为下一代主流视觉生成架构。未来,DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

腾讯将混元文生图大模型开源,可供企业与个人开发者免费商用

这是业内首个中文原生的DiT架构文生图开源模型。它希望借此填补文生图开源社区DiT架构空白,让更多开发者参与其中,以更快追赶上国外先进闭源多模态大模型。

腾讯也能在这个过程中,借着大模型重构自身业务,为现有业务赋能。从最新财报来看,大模型已对腾讯的业务产生积极作用。

此次腾讯升级的混元文生图大模型参数量15亿,支持中英文双语输入,支持最长256个字符(业界主流是77个)的图片生成指令,支持用户文本改写以及多轮绘画。

过去几年,主流的文生图模型以基于U-Net架构的扩散模型为主,然而U-Net模型容易陷入性能瓶颈,面临着扩展性问题,DiT架构主要是替换了模型中的U-Net架构的部分。Transformer架构只要算力与数据量足够,可以无限扩展。

基于Transformer架构的模型似乎更有潜力让文生图模型变得更聪明。因此,混元文生图从 2023 年7月起就开始做研发,全链路自研,从零开始训练。今年初,混元文生图大模型已全面升级为DiT架构。

据华尔街见闻了解,结合腾讯内部广告等真实场景需求优化与架构升级,最新的腾讯混元文生图大模型,对比基于U-Net架构的模型,视觉生成整体效果提升20%,同时在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果有明显提升。

腾讯文生图负责人芦清林指出,与Dalle3、SD3、Midjorney这三个业界知名的闭源文生图模型相比,混元文生图大模型排在Dalle3和Midjorney之后,在所有开源文生图模型中,混元文生图大模型则表现最好。

芦清林进一步指出,在混元文生图大模型开源之前,开源和闭源的文生图技术能力差距是在逐渐拉大的,腾讯希望通过此次开源能够把这个差距缩小。

芦清林也透露,今年初OpenAI推出Sora就是因为他们有了一个很强的DiT架构模型,此次混元文生图大模型开源有一个初衷,就是希望通过把DiT架构模型拿出来,让业界想做文生视频的同行可以快速地将这一技术拓展到视频上去,可以帮助大家节省很多时间。

腾讯一直是开源技术的支持者,过去已开源了超 170 个项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。

芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”

多模态是大势所趋

开源证券指出,国内外AI多模态大模型的持续突破及后续商业化,或大幅降低广告、课件、短剧、动画、剧集、电影等制作成本,提高IP开发、广告营销及教学效率,扩大商业化空间。

去年9月发布混元大模型时,腾讯就十分强调实用性,称混元大模型是“从实践中来,到实践中去”的实用级大模型。在混元文生图大模型开源后,不排除腾讯也会将大语言模型开源。

当然,开源或闭源都只是不同技术路线的选择,最终目的还是商业化应用。按照腾讯的规划,腾讯做混元大模型一定先是服务腾讯本身,再是通过腾讯云向产业规划,C端的应用则还在探索阶段。

芦清林对华尔街见闻表示,混元文生视频的商业化探索不算紧迫,因为腾讯内部的业务场景非常丰富,能给自身业务赋能已经很好。至于to C端的商业化,还没有明确的计划,但不排除会尝试。

在5月14日晚腾讯一季度业绩说明会上,腾讯管理层也表示,腾讯在积极创造和测试不同的AI产品,看看哪些产品对公司现有的产品有意义。随着时间的推移,这些产品将在微信等拥有大量用户的平台上推出。

据腾讯披露,目前已有超过400项腾讯业务和应用场景,接入腾讯混元大模型内测。腾讯混元文生图能力则被广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。

国内外AI“军备竞赛”战局正酣,但这是一场马拉松比赛。在等待“AI的iPhone时刻”真正来临前,腾讯选择了一条更扎实的路,让AI成为自己业务的“倍增器”,面对这场技术变革,也会更加从容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631738.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在另外一个页面,让另外一个页面弹框显示操作(调佣公共的弹框)vue

大概意思是,登录弹框在另外一个页面中,而当前页面不存在,在当前页面中判断如果token不存在,就弹框出登录的弹框 最后一行 window.location.href … 如果当前用户已登录,则执行后续操作(注意此处,可不要)

FANUC机器人初始化系统的基本方法和步骤

FANUC机器人初始化系统的基本方法和步骤 首先,在做系统初始化之前,必须做好系统的备份,这里做个镜像备份,更详细的镜像备份步骤可参考以下链接中的内容: FANUC机器人进行全部备份和镜像备份以及加载备份文件的具体操作(图文) 如下图所示,在示教器右边的USB接口上插个…

记录用python跑csdn点赞接口

代码如下 # 导入request包 import requests # 请求URL URL3https://blog.csdn.net//phoenix/web/v1/article/like # 入参 data3{articleId:109552419} # 请求头 headers3{cookie:uuid_tt_dd10_30308678820-1713771851124-190368; loginbox_strategy%7B%22taskId%22%3A349%2C%2…

1755jsp学生信息管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java 学生信息管理系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,…

酷开科技丨女性群像大戏《惜花芷》在酷开系统热播中

在这个国产剧市场蓬勃发展的时代,酷开科技通过其生态智能电视系统,为剧迷们打造了一个精彩的观剧平台。通过酷开科技的智能推荐算法,消费者能够轻松地发掘并观看各种题材的高质量剧集,无论是扣人心弦的金融较量、深刻的家庭代际关…

位图和布隆过滤器:位图

在《unordered_map 和 unordered_set》 中提到过: 哈希是一种思想,通过哈希函数将数据转化为一个或多个整型 —— 映射关系;通过这种映射关系,可以做到以 O(1) 的时间复杂度查找数据。 本文即将介绍的 位图 和 布隆过滤器 就是两个…

vue 微信小程序 uniapp 微信头像上传裁剪功能

效果如图&#xff1a; 操作流程&#xff1a; 个人中心–点击设置头像–选择图片-裁剪–选取–上传 template <view class"meilan" style"position: relative;"><u-row justify"space-between"><u-col span"3">设置头…

开源的图形化Windows软件安装升级方案:WingetUI

WingetUI&#xff1a;简化数字生活&#xff0c;WingetUI让软件管理轻松便捷- 精选真开源&#xff0c;释放新价值。 概览 WingetUI是在GitHub上开发的一个实用工具&#xff0c;专为Windows用户设计&#xff0c;旨在为常见的命令行包管理工具&#xff08;如Winget、Scoop、Pip、…

即刻报名:南京智博会|2024南京国际人工智能展览会

在21世纪的科技浪潮中&#xff0c;人工智能&#xff08;AI&#xff09;无疑已经跃升为一个全新的战略制高点&#xff0c;成为驱动社会经济发展的重要引擎。2024年11月&#xff0c;南京这座历史与现代交融的城市&#xff0c;将举办一场科技界的盛宴——2024南京国际人工智能展览…

指标体系建设方案(36页PPT)

一、资料介绍 《指标体系建设方案》这份36页的PPT资料包&#xff0c;是针对当前组织发展需求而精心设计的一套全面、系统的指标构建方案。本资料包从理论到实践&#xff0c;深入浅出地阐述了指标体系建设的必要性、原则、步骤及实施要点&#xff0c;旨在帮助组织建立起科学、合…

在Python中防止某些字段被Pickle序列化

在Python中&#xff0c;如果你想防止某些字段被pickle序列化&#xff0c;可以使用__reduce__()方法来自定义pickle行为。__reduce__()方法允许你返回一个元组&#xff0c;其中包含要在对象被pickle时调用的函数以及传递给该函数的参数。下面就是我遇到的问题以及最终解决方案。…

Mamba:7 VENI VIDI VICI

若在阅读过程中有些知识点存在盲区&#xff0c;可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。 序列模型的效率与有效性之间的权衡取决于状态编…

【自然语言处理】形式语言和自动机

实验名称 形式语言和自动机 实验目的&#xff1a;熟悉形式语言和自动机&#xff0c;设计程序实现有限自动机&#xff0c;学习对字符串进行合法性检测&#xff0c;使用有限自动机判断字符串是否是可以被接受的。书写出能够成功运行的代码。 实验内容&#xff1a;状态集为{ q0,…

职业生涯第一课---“Redis分布式锁优化:确保唯一性与效率“

前言 最近因为刚入职公司开启自己的实习生涯&#xff0c;工作和毕设论文同步进行&#xff0c;导致有段时间没更新博客了&#xff0c;今天来分享一下最近学到的一些知识。 场景介绍 BOSS让我写一些接口&#xff0c;他提出这样一个需求&#xff0c;该接口的参数有多个&#xf…

linux系统查看CPU信息

1、查看cpu型号 [rootMaster ~]# cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c 40。Intel(R) Xeon(R) CPU E5-2650 v3 2.30GHz 2、查看系统中实际物理CPU的颗数&#xff08;物理&#xff09; [rootMaster ~]# grep physical id /proc/cpuinfo | sort | uniq | w…

IT行业现状与探索未来发展趋势

​​​​​​​ 我眼中的IT行业现状与未来趋势 随着技术的不断进步&#xff0c;IT行业已成为推动全球经济和社会发展的关键力量。从云计算、大数据、人工智能到物联网、5G通信和区块链&#xff0c;这些技术正在重塑我们的生活和工作方式。你眼中IT行业的现状及未来发展趋势是…

Python函数之旅专栏(导航)

Python内置函数(参考版本:3.11.8)AELRabs( )enumerate( )len( )range( )aiter( )eval( )list( )repr( )all( )exec( )locals( )reversed( )anext( )round( )any( ) ascii( )FM  filter( )map( )S float( )max( )set( )Bformat( )memoryview( )setattr( )bin( )frozenset( )…

Spring实现数据库读写分离(MySQL实现主从复制)

目录 1、背景 2、方案 2.1 应用层解决: 2.2 中间件解决 3、使用Spring基于应用层实现 3.1 原理 3.2 DynamicDataSource 3.3 DynamicDataSourceHolder 3.4 DataSourceAspect 3.5 配置2个数据源 3.5.1 jdbc.properties 3.5.2 定义连接池 3.5.2 定义DataSource 3.6…

【Linux】线程周边001之多线程

&#x1f440;樊梓慕&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 &#x1f31d;每一个不曾起舞的日子&#xff0c;都是对生命的辜负 目录 前言 1.线程的理解 2.地址…

停车场车位引导管理系统工作原理是什么,由哪些软硬件设备组成?

在现代城市中&#xff0c;随着汽车保有量的持续增长&#xff0c;停车难成为了许多城市面临的共同问题。有效管理停车场资源&#xff0c;提高车位利用率&#xff0c;减少寻找停车位的时间&#xff0c;对于缓解交通拥堵、提高城市运行效率具有重要意义。车位引导管理系统正是为了…