企业网站内容如何更新怎么快速优化网站
2023 KDD
POI 标签任务旨在为兴趣点(POI)标注具有信息性的标签,这对于与 POI 相关的诸多服务(如搜索、推荐等)具有重要意义。然而,大多数现有方法忽视了 POI 图像的重要性,较少融合 POI 的文本和图像特征,导致标签预测性能不理想。
如图所示,左边的表格列出了“猫的天空之城”这个POI的全称、描述以及飞猪用户对它的一些评论,都属于文本特征,右边还展示了几张用户评论中贴出的图片。
在考虑了这些图像特征后,标注模型可以过滤掉不正确的标签“品茶”、“茶馆”和“猫咖”(基于评论文字产生的错误),因为它们的语义与图像无关。
此外,“网红拍照”和“网红打卡”这些与图像语义匹配的正确标签还可以被模型推断出来
为此,我们提出了一种新颖的 多模态 POI 标签模型 M3PT,该模型通过融合目标 POI 的文本和视觉特征,并实现精准的多模态表示匹配,从而提升标签预测效果。具体而言,我们首先设计了一个领域自适应图像编码器(DIE),以获得与标签语义对齐的图像嵌入;接着,在 **M3PT 的文本-图像融合模块(TIF)**中,POI 的文本与图像表示被充分融合为内容嵌入,用于后续的标签匹配任务。此外,我们引入对比学习策略,进一步缩小不同模态表示之间的差距。
为了评估模型性能,我们从阿里飞猪的真实业务场景中构建了两个高质量的 POI 标签数据集,并在此基础上进行了大量实证实验。实验结果表明,M3PT 在单模态和多模态的多个基线模型上均取得了显著优势,同时验证了模型关键模块(包括 DIE、TIF 以及对比学习策略)的有效性。