驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

654次阅读
没有评论

产品简介:简单来说 ,Weshop就是“一键给服装商品配个模特”的AI工具。用户在上传自己拍摄的真实服装图片后,可以在它提供的交互界面里,通过简单的勾选和语言描述,生成不同风格种类的模特图。这对中小电商卖家,尤其一些需要外籍模特的跨境商家来说,可以节省很多成本。目前它已经对外开放,并可以免费试用。

20228月,Stable Diffusion开源了它的模型。它进一步降低了对计算设备的需求,同时又带来了惊艳的图片生成效果,和已经被很多人把玩的Midjourney一起,伴随着口水和争执彻底带火了AI生成图片的技术应用。但随着使用者增加,人们也困扰于它的不可控:一些细节总是无法按照需要生成,导致图片经常无法真正的被使用——虽然叫stable但并不怎么稳定。

直到次年2月,ControlNet的出现改变了一切。这是一种神经网络结构,通过增加更多的条件来控制扩散模型,当加到Stable Diffusion上后彻底改变了它的可用性。

Controlnet Stable Diffusion刚一出现时,并没有立刻改变混乱的AI绘画社区,艺术家和创作者们还是在混乱而兴奋的讨论和使用着这些工具,但在杭州的一个小办公室里,一个一直在关注Diffusion模型的小团队,觉得他们等了很久的东西终于出现了。

“我觉得这一波有机会了。吴海波对我说。他是WeShop团队的负责人,他们开发了一款基于Diffusion模型的服装模特生成工具。WeShop团队是电商公司蘑菇街的一支特种兵,他们一直在关注虚拟试衣的方向,在Stable Diffusion出来时,他们已经在尝试搭建自己的各种demo,而看到ControlNet的一刻,他们觉得是时候做一些更深入的版本了。

ControlNet让一个期待了许久的技术走向商业场景的可用,而另一个冲击也在4月到来——Meta Segment Anything出现。这是一个用于图形分割的基础模型,让人们可以只通过提示工程就可以高效的完成高质量的图形分割。

这是一次飞跃,所有人都炸了。

吴海波回忆他所在的技术讨论小群看到这篇论文的那个夜晚。“那天晚上大家都很热闹,因为你一直在做相关的工作,就会发现你看到这个技术时你的理解跟别人不一样,你一直苦恼的东西你觉得它能马上解决。

然后一周半不到,WeShop的全新方案完成。

驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

今天你打开WeShop的网站,可以看到这是一个三列式的布局。“最左边是功能图,你可以理解成它是我今天雇的一个AI摄影师,他目前主要是干这个场景的,但我们未来会有非常多场景,比如说你要拍个淘宝类的,拍个小红书类的,拍个拼多多类的,你再拍个亚马逊类的,以前只能一套图多用,但现在完全是可以的。

简单来说 WeShop就是“一键给服装商品配个模特AI工具。用户在上传自己拍摄的真实服装图片后,可以在它提供的交互界面里,通过简单的勾选和语言描述,生成不同风格种类的模特图,也可以选择让这些模特出现在不同的背景中。这对中小电商卖家,尤其一些需要外籍模特的跨境商家来说,可以节省很多成本。目前它已经对外开放,并可以免费试用。

以下为一些真实例子,可以看到,它生成的图片和真实模特拍摄的之间已经难以区分。

“商家们比我们更聪明”

技术方案确定的同时,WeShop也快速选择了两个主要的商用场景:一个是外模场景,另一个是“真人场景

前者来自于WeShop过去几年和跨境商家的接触,他们普遍苦于寻找合适的外籍模特,而疫情更加深了这种苦恼;另一个则基于蘑菇街的电商经验。

“因为我们做这么多年电商之后,非常讨厌货不对版,我们认为必须设定底线,也就是但凡任何一套技术它会改变商品本身的细节的,售卖的过程中就会出问题,就不能上。

所以WeShop设计了真人和人台的概念。

“人台是说,你针对真实产品虽然请不起外模,但你自己把它穿上去,你只要这样拍,具体是什么样都无所谓,你在哪里拍都好,我们都可以给你生成好看的模特图片。我们产品反复在迭代就是降低你对图片本身的要求,这是核心未来要不停做的。吴海波说。

“第二个是真人,也就是有好多国内卖家,他其实也拍过图了,拍过图之后我们可以帮他把图换掉,可以生成另一种图。

而在产品逐渐提供给商家试用后,更多的有意思的需求由商家们提了出来。

一个是今天网红带货里非常爱说的“氛围感,有非常多的商家反馈他们非常需要抠背景,就是商品换背景,换各种地方,而传统的技术会显得不够逼真。“然后我们发现我们花了一点精力做了一下,效果也很好,我们也就做上去了。

而更让开发团队感到惊喜的,是聪明的商家们发明的使用窍门。

在人台的生成过程中,不可避免出现一些崩掉的问题。weshop团队一开始想了各种方法,比如让商家自己买个真人台,要求一定要有头,或者用技术的方法给每一个人台再生成一个头。

最后发现,用户自己解决了,方法非常简单,就是在上传图片时,同时在头的位置涂抹两下,就好了。

驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

“是我们自己想多了,用户比我们聪明多了。他说。而这样的做法从技术上也能立刻理解,它帮助模型识别的更准确。

驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

“我们马上会有一个新的功能,就是让他更容易涂,直接在我这边能涂,不用去美图秀秀,也不用去ps中涂,后面还会再加一个小工具扩一下,可以涂,还可以把四肢长出来。

越来越多的商家开始使用,也有越来越多的商家开始付费。目前,weshop的订阅价格为298元/月、598元/月、1598元/月,其对应算力点为20000、60000、200000,分别约可生成2000张、6000张、20000张商拍图。此外WeShop也提供“加油包”作为算力补充,有25元、125元、250元三个档位可供选择。在这个收费逻辑下,用户使用WeShop越熟练,算力浪费就越少,即单张商拍图的价格就越低。

产品经理思路

作为一款基于新流行的人工智能技术开发的产品,也意味着它在开发过程中要面对全新的问题,以及解决全新问题的技术路线的抉择与取舍。

在技术方案确定后,WeShop团队面对的最大挑战依旧是如何让这套技术方案能够在业务工作流里听他们的话。让扩散模型可以被掌控永远是非常难的事情。

如果把Diffusion想成一个人,他就是一个很调皮,有自己想法的人。

比如,吴海波介绍了一个调皮的例子:“大部分时候我们把图像切割出来之后,Diffusion模型非常喜欢在商品的边缘做一些他自己的修饰,比如说他给你袖子这里加一个链条,或者说你明明是一个穿着高跟鞋的,他给你上面加一些花纹,就是你的鞋面上给你加一点东西,你的鞋跟给你加一点东西,就这些事情他非常喜欢干。

而面对这样的问题,WeShop团队也曾想出很算法科学家的解决方案——他们开发了一个模型。“这个当时按我们的理解,就是一个局部重绘的场景,所以我们当时就开发一个模型,它可以缓解很多这种问题。吴海波说。

但是当模型上线时,在测试的时候他们发现,这个模型会让整体照片的质感偏向一种油画的感觉,像是加了一层滤镜——这是产品经理思路的人才会发现的问题。

对产品经理来讲,才会盯这个东西,且盯得很细。我们在自己的测试集里面是没有问题的,如果是发paper的那种算法开发的思路,这就够了。但是我们选择拿很多用户上次跑过的案例再跑一次,结果两张图放一起比就发现,一些情况下滤镜的感觉就出来了。吴海波说。

团队内部为此争论了一个星期。“这是一个电商场景,他拿回去还要再做处理的,我最好给他的是一个iPhone原片,或者是某个单反摄像机的原片这种感觉,他可以再做处理。但我如果已经给他了,他就没法用了,它的感受不一样,感受p图过度了。

“最后我们决定下线自己研发的这个模型。吴海波说。“对我们来说迭代出一个模型是非常困难的,而且好不容易有一个模型能上线解决一个很重要的问题,但最终我们还是强行下线了它,没有让它出现在客户面前过。

这也形成了WeShop的产品思路,产品经理的比重会大过纯算法或者技术的思路,因为后者往往会走向炫技的陷阱。

WeShop团队内部也经常讨论为什么GPT会在OpenAI而不是在Google出来的问题。一个结论就是,对同样的模型,怎么去调它这件事,理解是不一样的。

“我们实践的过程中我们出的图脸很少崩的,因为我们接受不了脸崩这件事情,因为我做产品的,我怎么把整个脸都崩成鬼畜的样子出来,这是不能接受的。但是如果是一个工程师团队或者是一个学术团队,我第一波做完,我现在公开测试指标好不好,我指标如果不错,然后再从我的case中,只要我的脸崩概率小于百分之多少,我就认为可用了,就类似于这一套东西跟我们以前做算法很像的,发paper的思路,做完结束了,那就做下一个。

驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

吴海波记得OpenAI也分享过类似的经验,他们与Google的区别就在于,OpenAI的人们就像一个产品团队,开发后会不停的用产品,而Google的团队在学术界paper发完了就进入到下一个课题了。

“但是只有产品经理、对产品负责的人,他才会反复对自己孩子一样,反复用它,你才会知道它的边界已经超出你的认知了,你指导回来的那个技术方向也就不一样。

吴海波认为,他们今天能做到这个程度,一定程度上也是对SD的实践是远多于其他人。

“它的边界在哪里?我们试过的case是多于其他人的,所以当我们产品第一天上线的时候,可能别人还不太理解为什么能到这种效果。其实每次历史上都是有一波人他自己因为用的够多了,才会对这个东西有更好的理解,然后做的东西就不太一样。

驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!

6月中旬,谷歌也发布了用在虚拟试衣的TryOn Diffusion,可以向顾客展示衣服在不同体型和尺寸的真实模特身上的效果。它基于扩散的框架,把两个Parallel-Unet统一起来,实现了对衣服细节的更好的把控。

达到这个效果的一个重要方法,是基于谷歌自身算力资源进行的大量训练。

“我们也看了它的研究,其实证明了这条路的前景,大厂用暴力证明这条路,后面开源社区会给它进一步实现。吴海波说。

虚拟试衣看起来离我们越来越近。

不过,在这样一个蓬勃发展的技术下,单独的一个产品不是最终的目的。WeShop团队经常思考,什么才算是AI native的产品。

“当然今天这个产品刚做出来还比较早期,但我们内部有一些想法,他们不一定对,但是更远。吴海波说。他相信AI Agents的方向,未来会是很多种AI工具最终结合到一起,有点像是一个AI管理的经理。

“今天的大模型有点像一个常青藤毕业读了最多的书,有非常好的背景的学生,他什么都懂,什么都能跟你聊一聊,但他就是不知道你的业务问题是什么。他说。

AI的技术虽然很强,但它总是要有某个流程把它串在一起。怎么串可能现在还不知道,但我们先把一些特定的场景做出来,可能谁第一个找到这个业务流程中数据闭环或者业务闭环,找到能跟AI之间反馈并且直接迭代的,谁就有了最深的壁垒。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy