(相关资料图)
情绪版 (mood board) 是指一系列图像、文字或样品的拼贴组合物,用来展现设计师对一个项目的想法或感觉。NFT 从业者NFT 无疑也是文生图的一大应用场景。Midjourney 目前被广泛应用在 NFT 创作上,因此公司发布规定,如果在 \"与区块链相关的事物\" 中使用 Midjourney 生成图像,需要对每月超过 20,000 美元的收入部分支付 20% 的版税。 NFTs Created by Midjourney 个人爱好者Midjourney 用户群体中不乏个人爱好者,如自媒体群体。文生图大大降低了艺术创作门槛,使得普通用户也可以成为艺术家和设计师,并通过 AI 创作获取收入。 为什么是Midjourney?Midjourney 是一款 AI 软件,也是一个垂类 SaaS 产品,引用 Point Nine Capital 的创始合伙人 Christoph Janz 的观点,垂直 SaaS 产品的成功离不开以下基本原则:对所在行业的客户有更深入的了解;以最好的方式解决他们的具体问题;专门向目标的群体进行营销/销售;随着时间的推移增加更多的功能层,增加 ACV( 平均客户价值)和粘性。我们在 Midjourney 的产品中看到了以上特点,也在其未来发展规划中看到了对增加 ACV 和用户粘性的努力。 惊艳的产品效果Midjourney 产品定位具体,“了解用户到底需要什么”,商业可行性强,能在更大程度上提高创意设计的效率。正如 Discord 中的用户评价:“ Midjourney 超过其竞争对手是因为它生成的图片都是可以商业化的。” 具体而言,Midjourney 的 prompt 简短,具有科幻色彩。相比之下,DALL-E2 更偏写实风格,Stable Diffusion 无风格偏向,但需要更长的 prompt 和更多的尝试来获得好的图片效果。 Book covers Mobile App UIs, created by midjourney Prompt 包括图片内容描述、艺术风格描述、艺术媒介&手段、光线描述、图片细节描述等等,使用不同的 prompt 可以实现图片的精细化调节。利用 Midjourney 获得美术竞赛数字艺术类别一等奖的 Théâtre D’opéra Spatial (太空歌剧院),创作者 Jason Allen 经过了 80 个小时的创作、大约 900 次尝试才完成了这个作品。 但这也反映了目前的图片生成无法控制,也无法修改。对于用户是一个黑盒,一方面不知道输入什么样的 prompt 会突然产生好的效果,另一方面即使每次都输入同样的词,每次出来的东西也不一样。但产品如果要商用化,每一个步骤都应该是有迹可循的。 对于 Midjourney 独特的艺术风格,Holz 表示,Midjourney 在优化模型的过程中是期待制作美好的图片,激发人类的想象力,而不是复刻现实。Midjourney 不会成为假照片的制造机器。 同时,Midjourney 在质量和速度之间做了“黄金区域”的选择。最初有 20 分钟生成高画质图片和 15 秒能生成低画质的图片两种算法。经过测试发现,相较于质量,人们更关心速度,但太快也不会带来更多体验上的加成。所以最终选择了 60 秒的版本,比 10 秒生成的质量更高,速度也在人们舒适的范围内。 以 Discord 为载体的社区交互设计Discord 为 Midjourney 的启动提供了绝佳的社交体验平台,成功将其带入了大众市场。一方面 Discord bot 降低了用户使用门槛;另一方面,图片创作是一个在讨论中不断迭代的过程,欣赏其他用户的作品有也助于激发灵感。Holz 在访谈中也提到,不直接做一个 iOS App 的原因是因为人们喜欢艺术共创。Midjourney 迅速成为 Discord 上用户最多的服务器,拥有了超 1000 万名社区成员。 Midjourney 近期扩大了产品的可用范围,任何人都可以将 Midjourney bot 引入自己的 Discord 服务器,这将进一步扩大 Midjourney 的使用容量。 Midjourney Discord 社群界面 Midjourney bot 通过数据飞轮和快速迭代建立护城河迭代速度对于文生图软件非常重要。SaaS 订阅制的产品模式使其盈利能力取决于图片效果及成本。而底层技术的飞速进步,必须不断地迭代模型以紧跟行业发展。其实数据质量及数据标注质量的重要性远远超过模型本身。Midjourney 以 PLG 的模式获得庞大用户量,形成数据飞轮,能够根据用户需求针对性地训练模型并快速迭代产品,长期来看更有利于建立竞争壁垒。 Midjourney 自发布以来迭代速度非常快。2022 年 3 月 V1 发布时仍参考了很多的开源模型;4 月、7 月和 11 月分别发布了V2、V3 和 V4,迭代出了自己的模型优势。V4 补充了生物、地点等信息;增强了对细节的识别能力及多物体/多人物的场景塑造能力。总之,每次迭代都是产品功能的飞跃。 Four generations of Midjourney AI models released in 2022 Midjourney 也在扩展地理版图。目前已经登录中国市场,使用微信内测群的方式提供服务。用户在内测群中艾特 Bot,并输入关键词,就可以生成 AI 图片。 逐渐深入设计工作流Midjourney 替代了 Google Images、Shutterstock、Getty Images、Pinterest、Unsplash 等传统图库平台,用户不再需要花费数小时搜索他人的作品激发灵感,而是直接生成,据称可以将一个月的工作量降低至一星期。 ToB 端,Midjourney 目前还主要在设计工作流初期。因为自定义能力有限,无法调整样式;也无法与其他平台集成,要生成满意的图片需要反复的尝试;所以只能用于灵感激发和提高工作效率,对于工作流的渗透并不深入。近期发布的 ControlNet 使得 Diffusion 模型更好地受控生成图片,提高了图片生成的速度和精准度,并可以调整图片细节,将会进一步深入工作流,改变专业设计行业的生产模式。Midjourney 若要进一步深入工作流需尽快集成 ControlNet。 Twitter: @RamAnanth29 ToC 端,会极大的简化工作流,比如代替设计师或外包商完成公众号等自媒体团队的图片设计等等。 不可忽视的是,Midjourney 在发展过程中还面临着潜在风险,如版权问题。David Holz 承认 Midjourney 使用的公开数据集包含了数百万张未经作者同意的作品;2023 年 1 月,三位艺术家对 Stability AI、Midjourney 以及 DeviantArt 提起了侵犯版权的诉讼。AI 生成作品中还存在着种族歧视及成年内容。虽然 Midjourney 进行了关键词限制,但仍无法完全避免相关内容出现。 Prompt 生态社区用户对于 Midjourney 的能力探索热情极高,目前已经出现了 prompt 的学习交流网站如 promptoMANIA,社群中也流传着很多 prompt 数据集的公开 Google 文档及文章教程。 Style groups in midjourney — Image by Lars Nielsen 由于用不同的 prompt 获得的图片效果差异很大,甚至出现了 prompt 交易平台。PromptBase 就是一个包含 Midjourney、DALL-E2、GPT-3 等不同平台 prompt 的交易平台,产品定价为 1.99 - 5.99 美元不等,平台抽佣 20%。目前为止,PromptBase 已有 1 万多名用户,最受欢迎的内容为 Logo、网站、服装等商业化设计场景,能够卖出几百到几千次。 Prompt 交易市场之所以能存在,一方面是因为人们表达能力的不同;另一方面是模型内部逻辑的原因,一些看似不合常理的词语组合却能获得意想不到的效果。OpenAI 创始人 Sam Altman 在采访中表示,未来的 AI 系统不会因为增补特定词就产生截然不同的输出,而是能更好地理解自然语言。所以未来,该平台的价值会被表达能力更强的人捕获。 团队背景Midjourney 正式团队成员十分精简,共 11 人。除了 CEO 之外,有 8 位研究与工程师,2 位财务与法务。除此之外,还有 4 位编外顾问,以及 60 位兼职 Discord 运营。 CEO David Holz 高中时便尝试创意领域的创业,大学主修数学物理学,在攻读流体力学博士的同时为 NASA 和 Max Planck 工作。之后创立了 Leap Motion,获得来自 a16z、Founders Fund、Intel Capital 和 JP Morgan 的超 1.2 亿美元投资。Leap Motion 的核心技术是手部追踪技术,想要成为 Metaverse 中的“鼠标和键盘”,但因为 VR&AR 一直难以突破瓶颈,所以“鼠标和键盘”自然也缺乏应用场景。 虽然 Holz 离开了 Leap Motion,但从未放弃 Metaverse 的蓝图,他创立了 Midjourney,或许也期待成为 Metaverse 中的生产力和 “大脑”。Midjourney 团队的多个核心成员来自 Leap Motion,如 CFO Nadia Ali 和高级研发工程师 Johnathon Selstad。团队成员及顾问拥有 AI 技术及产品创业的复合背景。这使得 Midjourney 不仅擅长模型优化,也能够理解用户,打造优秀的产品。 David Holz 认为 AI 不应该被限制,而是人类应该去适应。他将 AI 比作水,既危险,又是文明的驱动力。懂得如何与水一起生活和工作的人类,将有能力在水中游泳、做船、筑坝发电,从而更好的生活。同时,他认为文生图的核心并不是艺术或深度伪造(deepfakes),而是人类想象力的引擎。正是团队的思维方式使得 Midjourney 的风格充满了科幻色彩,也使其选择了 Discord,以最开放的方式面向用户。 在 2022 年 8 月的采访中,Holz 表示 Midjourney 目前不以财务回报为动机,也没有成为上市公司的计划。只是期待未来十年能够做对个人和世界有意义的事情,并且从中享受乐趣。 竞争格局竞争对手Midjourney 主要的竞争对手为以下几家使用了 Diffusion 模型的文生图软件公司: 科技大厂也在文生图领域积极布局,但速度较慢,目前仅仅发布了理论模型。Apple 若未来将 Stable Diffusion 嵌入 Iphone 中,可能会对行业格局产生较大影响。 传统设计软件也积极进入该领域,如 Photoshop 推出 Alpaca 插件,集成 Stable Diffusion,在 Twitter 上引发轰动,用户将它描述为“a game changer\",流畅的同工作流结合。传统设计软件占据了用户熟悉的使用场景,且作为产品功能的一部分拥有组合价格优势,对 Midjourney 构成挑战。 Midjourney vs. Stable DiffusionMidjourney 最有力的竞争对手是 Stability.AI,与 Midjourney 的闭源不同,其模型 Stable Diffusion 因开源模式受到了广泛关注。 Stable Diffusion 于 2022 年 8 月推出, 以开源底层代码的形式在 HuggingFace/Github 公开发布。“将 AIGC 交到数十亿人手中,实现技术民主化”,用户可以在其代码的基础上运行或修改,制作自己的应用程序,向终端用户提供服务。作为稀缺的开源模型,同时有着良好的性能,公测后就受到了广泛的关注和好评,积累了大量用户。截止 2022 年 10 月,Stable Diffusion 已经有超过 20 万开发者下载和获得授权,各渠道累计日活用户超过 1000 万。团队开发的付费在线平台 DreamStudio 目前获得了超过 150 万用户,生成超过 1.7 亿图片。 Stable Diffusion 的开源优势在于能够吸引大量的开发者,最大程度的把模型用起来。开源社区会齐心协力地完善模型文档,共同推进 prompt engineering,解决技术难题。这使得代码的迭代速度非常快,优化效率远远高于闭源系统,使得文生图行业快速成长和普及。同时社区成员会创建新的 UI,通过扩展现有的功能创造新的用例,因此 Stable Diffusion 模型上长出了繁荣的应用。缺点在于商业化不够直接,可能为别人“做了嫁衣”。 同时,Midjourney 与 Stable Diffusion 因使用的数据集及模型微调方式不同,在产品层面存在较大差异。 •产品定位上,Midjourney 是给创意设计群体开发的灵感激发及效率工具。 而 Stable Diffusion 更为开放,在风格变化的多样性上具有优势,但获得想要的图片效果需要更长的 prompt 和更多的尝试,同时在特定领域都不如该领域的专业化产品。 •商业化维度,对比 Midjourney 的闭源与 Stable Diffusion 的开源,Midjourney 商业化层面更为占优。 因为模型闭源,并通过庞大的用户量积累了独有的数据集,可以根据用户需求不断地针对性训练模型,长期来看更有利于建立竞争壁垒。在与 Stable Diffusion 的竞争中,因为其模型的开源,Midjourney 可以随时集成其模型优势。 •用户获取层面,Midjourney 最早开放了 Openbeta 版本,短时间获得大量用户。 但 Stable Diffusion 的商业化版本 DreamStudio 需要等待 Wait list,而开源模型的本地部署有较高的门槛。Midjourney 获得大量用户后,养成了用户使用习惯,且在开启付费订阅后就进一步加强了用户粘性。 收入估算及未来发展收入估算虽然团队一直表示不在意财务回报,但 Midjourney 具有极强的盈利能力。2022 年 8 月份,创始人 Holz 就声称 Midjourney 已经实现盈利。A16Z 也在《Who Owns the Generative AI Platform?》文章中提到 Midjourney 年收入已超过 1 亿美金。因为没有公开收入情况,我们在这里对它进行一个简单的估算。 假设 Discord server 用户(约 1081 万) 的 5% 是付费会员,共 54.05 万人。若付费用户的 70% (约 37.84 万)订阅每月 10 美元的基本计划,25% (约 13.51 万)订阅每月 30 美元的标准计划,5% (约 2.7 万) 是每月支付 60 美元左右的公司用户。则 Midjourney 目前的收入能达到每月约 945.9 万美元,年收入 1.14 亿美元。
因为 Midjourney bot 可以在所有 server 中使用,所以 discord server 用户数小于总用户数。目前来看,Midjourney 的毛利率约为 80%。Midjourney 搭建在 Discord 上,Discord 会收取约 10% 的手续费。虽不清楚 Midjourney 的模型训练成本,但 Stable Diffusion 的训练共使用了 256 张 Nvidia A100,耗时 15 万小时,成本为 60 万美元。每次生成图像的推理在云端的 GPU 上完成,生成一张图片的成本约 0.5 美分一张,且未来成本会不断压缩。相对于订阅收入,生成图片的成本可以逐渐忽略不计。 近期市场空间Midjourney 为付费订阅的商业模式,广泛渗透各个视觉场景。目前付费用户主要为创意设计人群和个人爱好者两大类。To smb 端,Midjourney 以 PLG 的模式成为专业设计从业者的办公软件。ToC 端,Midjourney 成为非专业设计师的工具,以及艺术爱好者的“玩具”。 我们根据客单价和付费用户量建立了以下坐标轴,可以看到,Adobe 作为专业性极强的设计软件拥有最高的客单价和最多的付费用户,年订阅收入远超其他公司。Midjourney 因刚刚起步,付费用户量少,但凭借着较高的客单价,有可观的增长空间。 对比传统设计工具,Midjourney 在使用门槛、客单价和目标客户群的定位上都与 Canva 更为相近,面向更广泛的 C 端和 smb 用户。截止 2022 年底,Canva 用户达到 1.1 亿人,证明了全世界至少有 1.1 亿人有设计需求。 假设这 1.1 亿设计人群中有 5% 会成为 Midjourney 的付费用户,付费用户的 70% 订阅每月 10 美元的基本计划,25% 订阅每月 30 美元的标准计划,5% 是每月支付 60 美元左右的公司用户。则 Midjourney 的市场空间能达到 12*11000*0.05(0.7*10+0.25*30+0.05*60)= 11.6 亿美元。 所以 ,Midjourney 能看到 10 亿美元左右的年营收,成长为百亿美金的公司。 未来产品形态Midjourney 未来可能会有以下几种发展前景: 1. Midjourney 将目前的图库功能做到极致。目前 Midjourney 替代了 Google Images、Shutterstock、Getty Images、Pinterest、Unsplash 等传统图库平台,成为新的“视觉搜索引擎”。Pinterest 拥有超 4.5 亿月活用户,若其中的 1% 能成为 Midjourney 的付费用户,则能达到约 10 亿美元的营收;乐观来看,若 5% 能成为付费用户,则能达到约 47 亿美元的营收。 2. Midjourney 不再局限于 Discord ,并且作为插件接入其他设计产品,仍扮演图库功能。如上文提到的 Canva、Adobe 等等,这将进一步增加其分销渠道,触达更多的付费用户群。 3. Midjourney 自己开发了端到端的产品,和设计工作流紧密结合,进一步提高客单价。功能方面,Midjourney 通过不断集成最新的技术,迭代产品功能,打造产品矩阵。如近期可以通过接入 ControlNet 深入设计工作流,Holz 也称短期内会在现有产品上增加 Text-to-3D,与 VR&AR 相结合。形态方面,搭建 Discord、网站、本地应用、插件等多维度产品组合,通过增加产品形态来为更广阔的客户群提供服务。 4. 未来多模态模型的发布改变目前的单点产品现状,Midjourney 作为功能单一的上层应用,被技术的快速进步所颠覆。 Apple 计划将 Stable Diffusion 嵌入 Mac 和 Iphone 中,作为用户熟悉的平台,且使用 Apple 终端推理成本更低、速度更快,也会对 Midjourney 构成挑战。Midjourney 可能会被集成,变成多功能产品的一个环节,甚至完全被新产品取代。不过 Apple 终端也并非是完美的解决方案,API 的形式将无法对垂直领域的模型进行特定化训练;将应用放在本地也面临着用户数据收集及进一步迭代模型的困难。 虽目前无法看清该行业的终局,但作为 ToC 属性很强的产品,我们认为 Midjourney 凭借着独特的图片风格及艺术效果、活跃的 Discord 社群带来的绝佳用户体验,在一定时间内能够保持用户粘性和较强的盈利能力;团队的快速迭代能力也让我们看好其未来的发展前景。 参考材料: https://digitalnative.substack.com/p/ai-in-2023-the-application-layer https://stratechery.com/2023/ai-and-the-big-five/ https://www.forbes.com/sites/robsalkowitz/2022/09/16/midjourney-founder-david-holz-on-the-impact-of-ai-on-art-imagination-and-the-creative-economy/?sh=3028d77e2d2b https://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-diffusion-text-to-image/?sh=66afb3b424d6 https://www.bloomberg.com/news/features/2023-01-31/architects-embrace-ai-art-generator-midjourney?srnd=premium-europe https://learn.g2.com/graphic-design-statistics https://mp.weixin.qq.com/s/6Fh76q0K0AsyqvFFRrY9Dw