6.6.1 基于用户画像的度量

6.6.1　基于用户画像的度量

最容易想到的解决方案一定是基于用户画像的。这种方法往往基于当前的平台用户画像进行度量，对于长期内容趋势的预测将更有效果。最简单的例子是：

●平台中到底有多少男性用户、多少女性用户？

●男性用户当前最喜欢看的内容品类Top3有哪些？

●在未来，这些男性用户的兴趣品类是否会发生大的变化？

但通过用户画像来预测内容稀缺性依赖于两个假设：第一个假设是用户画像准确且长期稳定；第二个假设是平台价值观正确，对用户有充分的了解，能做出中长期兴趣预测。

很明显，这两个假设只能近似满足。基于用户画像的稀缺性度量主要是基于当前的用户属性分布（比如性别、年龄、兴趣分类等）进行判断，短期数据偏好可以通过数据分析得到，长期数据偏好需要依据运营人员的行业知识判断得到。但这种方式并非是完美的，通过用户画像得到的用户稀缺性存在着若干已知问题。

●用户画像更新有滞后性，难以预测用户未来的兴趣。比如，如果没有《哪吒》这部动画电影的热播，很可能用户自己也不知道自己会喜欢看国产动漫。

●短期兴趣易变动，长期兴趣虽然稳定但难以与短期兴趣区分。用户的兴趣分为长期兴趣和短期兴趣。短期兴趣容易受到多种因素影响而不规律变动，比如《哪吒》热播会让用户画像上对国产动漫有了偏好。同时，长期兴趣难以和短期兴趣区分出来，比如很难判断是否由于近期动画电影《哪吒》的火爆让用户点击了更多和动漫相关的内容。如果无法区分兴趣的有效期，就难以判断此类人群对特定内容品类的需求强度。

●用户的兴趣画像和推荐系统本身推荐的内容有耦合。如果推荐系统在多样性上探索不够（比如没有强化学习等兴趣探索的召回），用户画像的兴趣维度就更新较慢。但如果对用户画像进行充分的兴趣探索，势必会降低短期推荐效果，因为从用户体验上看，平台推荐了许多平时不感兴趣的内容。这是一个两难的选项。

笔者曾经看到一条通过数据分析得出的结论：“平台的男性用户占比20%，男性用户历史上最喜欢看的漫画作品为恋爱向作品，因为无论从男性用户的喜爱作品比例上看还是从绝对数量上看，恋爱向作品都是最多的。”

这条结论显而易见是不严谨的。不严谨之处的第一点在于平台的内容推荐并非随机推荐，所以用户难以遍历所有品类的作品，在用户画像级别就出现了越推越窄现象。想象一种极端情况，比如用户画像中恋爱向作品的权重很高，则很可能在推荐中出现100%的恋爱向作品，这又重新影响了用户画像的生成。第二点是平台男性用户占比20%，使得平台存在着幸存者偏差。如果未来做用户增长，男性用户的比例就会上升，那些男性用户和当前喜爱恋爱向作品的男性用户的数据表现会差别很大。第三点需要考虑恋爱向作品在整体作品中的占比，占比过高也会导致这种现象的发生。正确的数据分析办法应该排除以上因素，比如使用“作品在男性用户中点击率的排序”来代替“绝对数值”，同时在点击率上需要做“威尔逊估计”，这样才可能得到更接近真实的结论。

所以笔者的建议是，如果是基于数据分析的思路做内容稀缺性的短期预测，推荐使用下述的A/B测试实验方法；如果是基于主观判断的思路做长期预测，需要充分考虑两个必要假设的可行性，这部分工作十分依赖人的判断。（比如判断某个电影能不能成为现象级的票房电影。）