news 2026/4/17 12:19:06

Iridescent:Day22

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Iridescent:Day22

https://blog.csdn.net/weixin_45655710?type=blog
@浙大疏锦行
DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。
作业:
自行学习参考如何使用 kaggle平台,写下使用注意点,并对下述比赛提交代码
您好!这是一个很好的复习和拓展学习的机会。

🎯 Kaggle 平台使用指南及注意事项

Kaggle 是全球最大的数据科学和机器学习社区,它不仅是一个竞赛平台,更是一个强大的学习和协作生态系统。

一、Kaggle 的核心板块与使用方式

Kaggle 平台主要由四个核心板块构成:

板块核心内容主要作用
Competitions (竞赛)解决真实世界问题的挑战,通常提供数据、评估指标和奖金。实践应用:在时限内解决复杂问题,应用和测试您的模型。
Datasets (数据集)丰富的公开数据集,涵盖各种领域(CSV, JSON 等)。数据探索与练习:查找高质量数据进行练习、可视化或构建项目。
Code / Notebooks (代码/内核)用户分享的代码、教程和分析报告(基于 Jupyter/R Markdown)。学习与借鉴:学习他人解决问题的方法、数据清洗技巧和模型构建流程。
Discussion (论坛)社区成员交流、提问和讨论竞赛或技术的场所。社区交流:提问、回答、讨论算法和数据科学趋势。

二、使用 Kaggle 的关键步骤和建议

1. 竞赛参与流程
步骤行动注意事项
1. 注册/加入注册账号,加入您感兴趣的竞赛。仔细阅读**“Rules”(规则)和“Data”**(数据)页面,了解评估指标(Metric)。
2. 初步探索Code/Notebooks中搜索其他用户分享的**“EDA”**(探索性数据分析)Notebook,快速了解数据。不要直接复制别人的代码,要理解其思路并尝试改进。
3. 模型构建在本地或 Kaggle Notebook 中进行特征工程和模型训练。经常提交(Submission)以获取即时反馈,但要注意公共排行榜(Public Leaderboard)可能会过拟合。
4. 最终提交在竞赛结束前选择2 22个最佳的提交作为最终得分。最终得分由私有排行榜(Private Leaderboard)决定,与公共榜单可能有较大差异。
2. 在 Notebooks 中学习 (推荐)

Kaggle Notebooks 是您学习和练习的最佳场所。

  • 新手起步:从经典的 [Titanic: Machine Learning from Disaster] 或 [House Prices: Advanced Regression Techniques] 等入门级竞赛入手。
  • 筛选优质内容:在 Notebooks 页面,按“Hot”(热门)或“Highest Score”(最高分)筛选,优先学习高赞或高分的代码。
  • 善用 GPU/TPU:Kaggle Notebooks 提供免费的 GPU/TPU 资源,可以用来训练大型模型(如深度学习),但要注意使用时长限制。

三、Kaggle 使用的五大注意事项

序号注意点详细说明
1作弊与团队协作禁止在同一竞赛中拥有多个账号。如果参加团队赛,必须遵守团队成员人数限制和代码分享规则。
2关注 Private LB不要过度信任 Public Leaderboard。许多参赛者为了冲高公共榜单分数而牺牲泛化能力。最终决定您奖金和排名的都是 Private Leaderboard。
3数据泄露 (Leakage)严格区分训练数据测试数据。任何在模型训练阶段使用了测试集信息的行为都可能导致数据泄露,从而得到虚高的分数。
4外部数据使用必须严格遵守竞赛规则中关于外部数据的规定。有些竞赛允许使用,有些则禁止。如果允许,必须在论坛中声明使用的外部数据源。
5资源限制注意 Notebooks 的运行时长限制(通常12 1212小时)、GPU/TPU 配额(通常每周有限额)以及文件输出大小限制。

Day 21 复习回顾:降维算法

在您复习第21 2121天的降维算法时,请重点回顾PCAt-SNE的核心区别和适用场景。

  • PCA (主成分分析):线性降维,追求最大方差,适用于全局结构保留和特征工程
  • t-SNE (t-分布随机邻域嵌入):非线性降维,追求局部相似性,适用于数据可视化和发现聚类结构
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 6:35:21

深度拆解:279模式如何重塑传统消费,构建增长新引擎?

“流量昂贵,复购艰难”-企业无法回避的困局,多数企业选择以“低价”破局,却陷入竞相压价的死循环。在此背景下,“279全新消费返利模式”正逐步展现其强大的市场影响力。一、279一个核心公式的诞生“2”:代表两两复制“…

作者头像 李华
网站建设 2026/4/18 5:33:14

词向量深度笔记:从 OneHot 到 Word2Vec(逻辑链 + 代码)

词向量深度笔记:从 OneHot 到 Word2Vec(逻辑链 代码) 前言 这是一篇关于 NLP 基石—— 词向量(Word Embeddings) 的系统笔记,内容来源于课程讲义、教材阅读和个人实践整理。 本文的核心目标是讲清楚逻辑链…

作者头像 李华
网站建设 2026/4/17 22:07:43

字节跳动、蔚来、哔哩哔哩、小红书面试复盘!

沉默是金,总会发光大家好,我是沉默作为程序员,面试不仅是展示技术能力的舞台,也是检验自己知识体系的机会。最近在几场面试中,朋友遇到了一些技术性问题,尽管挑战较大,但它们促使他对基础知识和…

作者头像 李华
网站建设 2026/4/16 20:49:28

半条鱼设计公司如何为乌鲁木齐展厅打造独特空间体验?

半条鱼设计公司:为乌鲁木齐展厅打造独特空间体验的专业实践专业设计团队的深度洞察半条鱼设计公司自2013年创立以来,始终专注于室内空间设计领域,拥有200余位设计精英组成的专业团队。在乌鲁木齐展厅项目实践中,公司展现出对商业展…

作者头像 李华