Indexed by:
Abstract:
随着 Web2.0 和移动互联网的普及,用户对各种媒体资源的消费需求也与日俱增, 更加值得关注的需求的多样化,这使得原本在互联网领域就越发显著的信息过载问题 变的更加突出。而近年来逐渐成熟的机器学习或者说从数据中学习的技术慢慢渗透到 了传统推荐领域来解决这一大问题,业界的应用也充分证实了这一点。
本文基于上述问题,设计并实现了一种融合多类别产品的泛视频内容推荐系统, 旨在为用户提供一站式的资源消费服务。首先,详细描述了泛视频内容推荐系统需求 分析,结合 UML技术对系统提供的服务进行了可视化的描述;其次,本文将对象关系 映射引入到 Scrapy 框架中并对其进行改进,实现了一种可行的通用爬虫技术,并基于 此技术在众多主流网站上采集系统所需的资源数据,在数据采集层面上支持了本系统 所要求的可扩展性;再次,对采集到的数据运用文本挖掘技术提取用于描述资源的短 文本标签,从而实现多种资源的统一描述,而这些短文本又将作为资源的离散特征参 与后续模型的训练,另外通过用户的操作行为形成用户的兴趣画像,按照不同的排序 准则将应用到不同的推荐场景中,用于反映用户的短期与长期兴趣;最后本文将推荐 问题转化为点击率预估问题,并在 300 万条用户日志上训练点击率预估模型,实现对 多种资源的统一推荐,并基于 B/S 架构完成了系统的实现。
泛视频内容推荐系统完成了对多种资源的推荐,将社交数据通过短文本标签的形 式引入到算法的训练中,在完成推荐的同时,算法的整体效果也得到了大的改善, Logloss 接近于深度学习算法的效果。
Keyword:
Reprint Author's Address:
Email:
Basic Info :
Degree: 硕士
Mentor: 王晓春
Student No.:
Year: 2018
Language: Other
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count:
Chinese Cited Count:
30 Days PV: 1
Affiliated Colleges: