2022下半年,AI生成艺术或许已经成为了科技领域最性感的技术风口。
此前,36氪整理了截止到今年9月底的全球AI Art行业图谱。而在不到一个月的时间里,行业继续高歌猛进:
上线不到两个月的头部厂商stability.ai(Stable Diffusion背后的公司)得到了10亿美元估值,以此迅速跻身全球独角兽阵营,彻底打响了AI Art的名号。
此外,在良好的开源生态下,国内也在一直不断涌现在算法风格、商业方向、产品特点等方面各有不同的AI Art厂商。成立于2020年的智能设计服务商「Nolibox 计算美学」,近期也完成了自己旗下AI Art平台产品「画宇宙 」的开发,并在Product Hunt(全球最大产品发现社区)和国内上线。
去年,36氪曾报道了「Nolibox」的Pre-A轮融资新闻。作为国内最早在AI生成设计(区别于Canva等模板设计的智能设计)领域深度布局的初创企业之一,「Nolibox」的核心团队一直在持续探索AI与创造力的深度融合,并以AIGC作为核心进行了产品化的布局。
那么,对于从业者来说,如今AI生成艺术久居不下的热度,是否只是C端用户的“好奇心泡沫”?为了诠释AI Art在国内市场的另一种可能,36氪采访了「Nolibox」创始人兼CEO徐作彪、CTO何宇健。
36氪:从什么时候开始布局AI生成艺术的?
徐作彪:我们其实一直做的都是AI和设计创意的融合,所以技术层的探索也是围绕着相关的落地方向深入展开的。无论是之前披露过的智能海报、动态渲染和素材语义理解,还是现在比较火的AI Art,其实从广义上来讲都是智能设计创意的一部分。也因此,我们去把包括AI Art 在内的AIGC技术纳入我们产品体系里时,不会是以一种纯粹的AI Art的形态来做,而是会考虑目前我们已有的技术体系和整体战略,用自然而然的方式去接入AIGC技术,并以一种「生产力工具」的形态体现出来。
36氪:如何看待Stable Diffusion的大热?
徐作彪:SD(Stable Diffusion)出来之前我们也看过很多类似的技术,但他们或多或少都有些缺点,导致它们离真正的生产力工具都还差点意思。SD的火爆很大程度上来自于它解决了很多技术问题,同时以开源的方式缩短了行业技术进步所需要的时间。那么在技术相对公平的前提下,我们所做的事情就是把之前的积累和沉淀快速放入了这个领域,以便未来更好地朝着生产力工具发展。
何宇健:其实从最底层的算法模型和技术原理上来看,目前每一家文本生成图像的厂商做的可能都差不多,都算是Diffusion模型的各种变体。SD所开源的模型也是基于其中一类Diffusion模型的工程化实现。SD模型的优点在于,它采用的Latent Diffusion模型会先把图片进行某种“压缩”、并转换成某种潜在的表达后,再做后续计算,所以运算量降低了,运算速度也就得到了提升。至于其他的主流Diffusion模型,以Disco Diffusion为例,虽然他们的效果甚至可能会更好一些,但速度就会比较慢。
36氪:Nolibox Creator的产品核心功能有哪些?
徐作彪:从产品形态来说,我们主打的是「无限画板」和「生产力工具」的概念。作为一个画板,它可以让用户在同一个交互界面上看到自己历史生成过的所有作品,也可以像Figma一样,在画布内对这些作品进行自由编辑。作为生产力工具来说,我们除了集成、优化了SD模型以外,也集成了各种各样的技术,而不是简单的给一段文本,生成,然后就结束了。用户可以先用文本生成很多张图,然后选中其中觉得比较好的图,再用超分辨率把它变成一张高清的图,进行后续的自由编辑和创造。这样的话,其实可以给予用户一个更加自由的创作环境,而不是一次性的创作。
Nolibox - 画宇宙
Nolibox - 画宇宙
36氪:这样一个基于AI生成的平台化产品未来可能会是什么样子?
徐作彪:要说的话,AI Art,或者说文本生成图像,其实只是AIGC下的一个子领域,而我们的平台产品未来是可以集成其他AIGC技术的。比如像自然语言生成技术,用户需要一段什么文案,可以在我们的平台上生成,然后我们再帮它考虑这个文案应该配上什么样的图。因此从最终愿景来看,我们想做的是AIGC的“超级大平台”,这上面有各种各样的AIGC技术,有些可能是我们的,有些则可能属于一些合作的技术提供方。比如我们最近也在谈一些合作,寻找一些专门研究算法的团队进行深度合作,目的就是让用户在我们的平台上享受到几乎所有全球新兴的AIGC技术能力,并且和无限画板这样的生产工具形式进行可定制化的融合。这样的产品形态会是我们比较重要的战略方向和核心壁垒之一。
36氪:从技术层面来说呢?
何宇健:技术方面,我们目前的工作方向主要是优化和支持用户本地私有化部署。首先就是把它的硬件需求降到最低,为每个人都能实现私有化部署打下一定的基础。比如如果只是使用基础功能的话,GPU显存最低可能只需要4G。我自己做测试的结果是,大概四五年前买的一台NVIDIA 1080的电脑,这样的一张显卡上其实已经能够跑我们所有的算法了。
36氪:会考虑开源吗?
徐作彪:开源一直是我们想走的路。从价值形态上来说,我们还是比较坚持“取之于开源,用之于开源”的理念。目前来说,我们的后端算法已经完全开源了,而且只要用户有一定的代码能力,就能够进行私有化部署,也就是说可以永久免费地用我们的产品。希望大家能够更多地参与进来,乐在其中。
36氪:基于国内创业者里会有一些急功近利、善于“套壳”的人,像这种非基础技术层的开源会对企业自身的发展和市场竞争造成一定损害吗?
何宇健:我们目前开源的是后端算法技术,而我们的前端产品并没有开源出来。我们确实也担心把产品开源出来,别人就直接拿去卖了。在开源这件事上,我们的目的是先把技术迭代好,在占据了用户心智、不再怕被别人抄了以后,可能也会考虑把前端也开源出来,因为到那个时候再去做各种维权也会方便和理直气壮很多。但总体来说,其实在开源对市场竞争的利和弊里,利益都几乎是面向所有人的,而弊端基本只是对开源方自己的。
徐作彪:被套壳这种事其实避免不了,有些产品确实会直接套壳上线,让用户做任务看广告,做一些病毒式的现金流。除非我们在开源的时候就写进去一个很强的协议,但这样可能又会违背开源的精神。不过从自身出发,我们还是想做一个比较长线的事情。开源带来的套壳行为可能可以从短期压榨技术的剩余价值,在这波浪潮下获得比较不错的盈利,但理论上来说,如果没有对这种行业内耗有一个清晰的认知,它可能也只是一两个月的热度。目前AIGC的从业者想的事情都是如何把短期的浪潮变成长期稳定的商业模式,其中我们想做的就是一个生产力工具。
36氪:目前AI Art还是在C端的尝试比较多,如何看待未来在ToB领域的商业化方向?
徐作彪:我们看好AIGC在B端的商业化,我们本身想要做一个平台,可塑性比较强,因此我们也去想了很多种模式和场景。
36氪:C端社区运营方面有什么成果?
徐作彪:近期我们在小红书、微信、B站、知乎这些渠道都做了一些运营的初步发力。其实我们的心态会更加开放,比如不太提倡用户直接把产出的图直接拿去售卖,因为按理说产出的作品版权应该遵守CC0协议(CC0,非营利性组织Creative Commons推出的放弃版权并将作品投入到公共领域中的版权数字授权许可)。我们希望用户更加专注于创作的乐趣,所以会致力于与平台合作举办一些重量级的活动,或者线下的空间联动。社群成果来说,我们小红书和微信社群里的交流和反馈还是挺好的。目前我们更想把资深用户运营起来,而不是只追求用户量。
何宇健:另外,我们的开源社区里已经有一些来自海外的开发者,他们会自发地给我们提很多很有用的建议。比如,其中一位海外开发者就给相关的代码做了个 demo,在这个 demo 的基础上,我们快速地做出了一种没有硬件需求的、更易于上手的本地化部署方案。此外,另一位海外开发者甚至自发地提出要帮我们搭建一个 Discord 社群,并愿意帮我们宣传。所以我们会觉得,如果能够把更多对AI Art有信念、有热情的人聚集起来,那么整个产品和技术的迭代都会更快更好。
36氪:目前Nolibox Creator已经在ProductHunt上线了,如何看待AI Art出海的机会?海外的用户习惯比起国内会有什么不同?
徐作彪:我们在海外和国内的运营策略有一个很大的区别。其实在海外目前我们还没有特别的去运营。海外这一部分目前我们主要是想把开源社区运营起来,希望能以此实现一个健康的开源模式,大家一起来协同完善开源算法。但国内用户的话还是要经过注册来体验,国内市场对于我们来说更大的意义是验证一些商业化的东西,所以推广的时候我们也会在国内开放更多的功能。
36氪:定价策略方面是如何考虑的?
徐作彪:在定价方面我们的想法是,大部分用户在大部分时候都是能免费使用的,可能会在一些特殊情况下收费。我们目前有三种特殊情况,第一种是在微信小程序或者移动端使用,我们会给用户一定的免费生成次数,然后再按生成次数收费。第二种是在电脑端,如果用户不想排队、也不想做本地化部署,我们会提供一个付费的专属服务器集群给他们。第三种收费情况是我们和一些技术提供方合作,有些算法如果可能是需要收费的,比如说我们的收费模式里有一个算法资源包,相当于是专门和技术提供方合作的资源包,这里的定价主要由技术提供方来决定。
36氪:随着微软和DALLE-2合作,很多国内科技巨头也开始积极布局AI Art,和他们之间的合作与竞争关系会是怎样的?
徐作彪:其实我们和国内科技巨头的合作已经有了相对不错的进展。这种合作会是相辅相成的,因为我们的战略核心之一在于——我们不是要去垄断这个技术,毕竟技术已经是开源的了,我们想做的是提供一款产品,能够去集成并且产品化各种各样的优异的技术,所以会在产品体验上下狠工夫。各种技术之间不会是相互竞争,而是相辅相成的。所以我们非常愿意和科技巨头进行深度合作,相当于他们提供技术和定价策略,我们负责产品化。
另外,如果科技巨头不想让自己的技术只是在我们的产品里作为一小部分,希望自己能做出来一个好的产品,其实也是可以的。因为可能国内科技巨头的AI研发部会比较专注于技术,而我们会更专注于产品,彼此是非常珠联璧合的。同时,因为我们的产品做得很组件化,帮他们定制产品的速度也会非常快。说到微软和DALLE-2的合作,其实还是做了个专门面向设计的软件出来,而我们的产品是基于云原生的,这可能也会是我们的优势之一。
36氪:最后一个问题,AI Art对人类的创造力来说意味着什么?
徐作彪:我觉得作为人类来看的话,最重要的是可以让AI去帮自己画出灵光一现的创意,让想象力快速呈现在眼前。以及在创意工作中,替代自己做一些重复的、辅助的、甚至高强度的工作环节。第二,它也可以让人类去思考,人类的艺术到底有哪些东西是AI没法学会的,也就是探索人和AI创造力的边界到底在什么地方。第三,在漫长的发展过程中,AI生成应该更加偏向人文关怀,为人所用,让人类更加聚焦于自己擅长的创意方向,比如你在写文章的时候,每个字都不是你发明的,但这些字的排列组合是你的创意。同理,在AI Art层面,创意的构思与组织才是核心。
何宇健:我从技术视角也补充一下。其实我们知道,AI生成只能重现大部分主流风格和模式。比如我们给它100万张图,它可能从中总结了很多规律,而这些规律都是一些主流规律,它其实只能重现这些东西。那么如果思考人类的艺术里到底有哪些是AI没有学会的这个问题,是不是就能得到一些结论,比如AI没学到的东西,是不是正好就是我们人类艺术的精髓?AI现在只能模仿主流,但是不同的艺术家想表达的理念、体验和设计手法都是各有差别的。关于这个问题的思考,有可能让人类的艺术更进一步。