news 2026/5/15 2:28:02

Polyvore时尚搭配数据集完整使用指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Polyvore时尚搭配数据集完整使用指南

Polyvore时尚搭配数据集完整使用指南

【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset

Polyvore数据集是时尚推荐系统研究领域的重要资源,源自论文《Learning Fashion Compatibility with Bidirectional LSTMs》。该数据集包含来自Polyvore.com网站的21,889个完整时尚搭配,为研究者提供了丰富的服装组合数据,助力时尚兼容性分析和智能推荐算法开发。

数据集核心价值与应用场景

Polyvore数据集在时尚AI研究中具有不可替代的价值:

  • 时尚兼容性建模:学习服装单品之间的搭配规律
  • 智能推荐系统:构建个性化的时尚搭配推荐引擎
  • 深度学习研究:为双向LSTM等神经网络模型提供训练数据
  • 跨模态理解:结合文本描述与视觉特征的时尚理解

数据集文件结构详解

核心数据文件

polyvore.tar.gz- 完整数据集压缩包,包含原始图像数据train_no_dup.json- 17,316个训练集搭配valid_no_dup.json- 1,497个验证集搭配
test_no_dup.json- 3,076个测试集搭配

辅助配置文件

category_id.txt- 类别ID与名称映射文件fill_in_blank_test.json- 填空式时尚推荐任务测试集fashion_compatibility_prediction.txt- 时尚兼容性预测数据集

数据预处理与解压步骤

解压数据集文件

首先需要解压核心数据文件:

tar -xzf polyvore.tar.gz

数据结构解析

每个JSON项目包含完整的搭配信息:

{ "name": "搭配名称", "views": "浏览次数", "items": [ { "index": "单品在搭配中的索引", "name": "单品描述", "price": "价格信息", "likes": "点赞数量", "image": "图像URL", "categoryid": "类别ID" } ], "set_url": "搭配页面链接", "set_id": "搭配唯一标识" }

实际应用案例

时尚兼容性预测

数据集包含约7,000个搭配用于兼容性预测任务,其中4,000个为不兼容搭配,3,000个为兼容搭配。每行数据格式如下:

1 单品1 单品2 单品3

其中首数字表示兼容性(1为兼容,0为不兼容),后面跟随构成搭配的时尚单品序列。

填空式推荐任务

fill_in_blank_test.json文件包含填空式时尚推荐任务的测试问题,格式如下:

{ "question": "构成问题的时尚单品序列", "answers": "可供选择的选项集合", "blank_position": "需要填充的空白位置"

数据处理技巧与最佳实践

数据清洗要点

  • 删除包含非时尚类别ID的单品(如背景、文字、装饰等)
  • 对于包含过多单品的搭配,仅保留前8个单品
  • 处理单品索引不连续的情况

类别映射使用

通过category_id.txt文件可以获取类别ID与具体类别名称的对应关系,这对于理解单品属性和构建特征工程至关重要。

注意事项与使用限制

  1. 数据时效性:数据集抓取于2017年2月19日,部分搭配可能已过时

  2. 图像可用性:原始图像URL已失效,需要通过Kaggle等平台获取替代图像资源

  3. 研究伦理:在使用数据进行商业应用时,需考虑版权和隐私问题

扩展资源与相关研究

除了本数据集外,Polyvore.com还衍生出多个相关数据集,包括《The Elements of Fashion Style》、《Mining Fashion Outfit Composition》等,研究者可根据具体需求选择合适的数据资源。

Polyvore数据集为时尚AI研究提供了宝贵的数据基础,通过合理的数据处理和算法设计,研究者可以开发出更加智能的时尚推荐系统,推动个性化时尚服务的发展。

【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 1:55:07

如何用Gradio在20分钟内发布一个支持图文语音的多模态AI应用?

第一章:Gradio多模态AI应用快速入门Gradio 是一个开源 Python 库,专为快速构建和部署机器学习模型的交互式 Web 界面而设计。它支持文本、图像、音频、视频等多种输入输出类型,非常适合用于多模态 AI 应用的原型开发与演示。安装与基础配置 通…

作者头像 李华
网站建设 2026/5/10 23:32:56

Java定时任务终极指南:ScheduledExecutorService高效应用完全解析

Java定时任务终极指南:ScheduledExecutorService高效应用完全解析 【免费下载链接】concurrent 这是RedSpider社区成员原创与维护的Java多线程系列文章。 项目地址: https://gitcode.com/gh_mirrors/co/concurrent 在现代Java应用开发中,定时任务…

作者头像 李华
网站建设 2026/5/9 3:50:41

Pytest:超越传统单元测试的Python瑞士军刀

Pytest:超越传统单元测试的Python瑞士军刀 引言:为什么Pytest不仅是又一个测试框架 在Python开发者的工具链中,测试框架的选择往往反映了他们对软件质量的理解深度。当大多数开发者还在使用Python标准库中的unittest模块时,一群…

作者头像 李华
网站建设 2026/4/23 20:40:08

HuggingFace镜像网站速度测评:VoxCPM-1.5-TTS-WEB-UI下载效率对比

HuggingFace镜像网站速度测评:VoxCPM-1.5-TTS-WEB-UI下载效率对比 在AI语音技术飞速发展的今天,高质量文本转语音(TTS)系统正逐步渗透到智能客服、有声内容生成和虚拟人交互等关键场景。其中,基于大模型的端到端语音合…

作者头像 李华
网站建设 2026/5/10 4:30:22

PyCharm激活码永久免费陷阱多?转向AI语音开发正当时

PyCharm激活码永久免费陷阱多?转向AI语音开发正当时 你有没有在深夜调试代码时,突然弹出一个“PyCharm永久激活码免费领取”的广告?点进去后,下载的不是IDE,而是一堆挖矿程序、远程控制木马,甚至你的GPU已经…

作者头像 李华
网站建设 2026/5/8 2:03:45

为什么90%的Python开发者无法打造流畅3D引擎?真相在这里

第一章:为什么Python难以驾驭3D渲染引擎Python 作为一门以简洁语法和高开发效率著称的编程语言,在数据科学、自动化脚本和Web开发领域表现出色。然而,当涉及高性能计算密集型任务如3D渲染引擎开发时,Python 显得力不从心。性能瓶颈…

作者头像 李华