【CatBoost 系列第2讲】特征输入规范：类别编码、缺失值与时间切分

一、为什么在量化里谈 CatBoost，第一件事不是参数，而是先把它放回正确位置
二、为什么 CatBoost 首先应该被理解成一个强力表格模型，而不是泛化到一切问题的“高级算法”
三、为什么 CatBoost 在量化里常被拿来做强基线，而不是默认终局方案
四、为什么它对类别特征友好，在量化场景里尤其有现实价值
五、为什么“能处理缺失值”不等于“可以忽略数据问题”
六、为什么它在中等样本和表格因子场景里尤其容易体现价值
七、为什么 CatBoost 也有明确边界，知道“不该用在什么地方”同样重要
八、这一讲真正建立的，是“模型定位意识”，而不是参数记忆
九、为什么这一讲做完后，最好已经形成“先问模型角色，再问模型技巧”的顺序
十、这一讲也在帮你建立“模型选择服务于问题，不服务于流行度”的研究态度
十一、总结
十二、系列衔接
十三、风险揭示与免责声明

CatBoost · 工具实战

一、为什么在量化里谈 CatBoost，第一件事不是参数，而是先把它放回正确位置

CatBoost 在量化圈里这些年被提到得越来越多，原因很现实：它处理表格数据很强，对类别特征友好，对缺失值容忍度高，在不少中等规模样本里也比很多“先上深度网络再说”的方案更稳。但越是这样，一个误区就越容易出现。很多人一看到它在线下分数不错，就想直接跳进训练和调参，仿佛只要把 CatBoost 跑起来，量化建模就算进入正轨了。实际上，真正更重要的第一步，反而是先把它放回正确的位置上。

也就是说，你得先想清楚：CatBoost 到底适合解决量化里的哪一类问题，它擅长什么，不擅长什么，为什么它常常被拿来做强基线模型，而不是万能答案。只要这个定位没有先讲清楚，后面的学习就很容易失焦。你可能会学会一堆参数名字，却仍然不知道什么时候该用它，什么时候不该硬套它。对量化研究来说，这种“工具很会用、场景却拿不准”的状态并不稳。

所以 CatBoost 系列的开篇，最该做的不是赶快上代码，而是先建立模型定位意识。只有这层意识先立住，后面讲输入规范、时间切分和调参，才不会变成孤立技巧。

二、为什么 CatBoost 首先应该被理解成一个强力表格模型，而不是泛化到一切问题的“高级算法”

很多介绍 CatBoost 的文章，会把它包装成一种很强、很先进、很适合复杂任务的机器学习方法。这种说法本身不算错，但如果停在这里，对量化研究并没有太大帮助。更准确的理解是：CatBoost 首先是一个非常强的表格模型。它擅长处理一行行样本、每行若干特征列、目标标签相对清楚的任务。在这个场景下，它往往比很多更重型的方法更务实、更稳定。

量化里有大量问题天然就是表格问题。比如某天某只股票对应一组风格因子、动量特征、行业标签、流动性特征，再配一个未来收益或涨跌方向标签，这就是非常典型的结构化表格任务。CatBoost 在这里之所以好用，不只是因为它性能强，还因为它对类别列和缺失值的处理更自然，能降低很多前处理负担。

但这并不意味着它适合所有问题。若任务更依赖复杂时序结构、原始高频序列、文本语义或图像信息，那么 CatBoost 就不一定是最自然的第一选择。也正因为如此，把它理解成“强力表格模型”比理解成“放哪都强的大模型”更接近真实，也更有助于后面的正确使用。

三、为什么 CatBoost 在量化里常被拿来做强基线，而不是默认终局方案

在一个更成熟的研究流程里，CatBoost 很适合扮演“强基线模型”的角色。所谓强基线，不是随便找一个凑合模型先跑，而是先用一个本身能力不弱、对表格特征理解较强、训练过程相对稳健的模型，去检验当前的特征工程和标签设计到底有没有基本信息量。CatBoost 恰恰很适合承担这个角色。

原因很简单。它通常能在结构化特征上较快给出一个很有参考价值的结果，不需要像更复杂的神经网络那样先铺很多额外工程。若你连 CatBoost 都很难学到稳定信号，那么问题很可能不在于模型不够高级，而在于标签定义、样本切分或特征本身就还没有准备好。反过来，如果 CatBoost 已经能给出比较扎实的基线，你后面无论继续优化树模型，还是转去别的模型，都会站在一个更稳的起点上。

这也是为什么量化里不少团队会先跑 CatBoost。不是因为它一定就是最终方案，而是因为它足够强，又足够实用，很适合先帮你验证研究基本盘是否成立。

四、为什么它对类别特征友好，在量化场景里尤其有现实价值

CatBoost 最常被提到的优势之一，就是对类别特征友好。这一点在量化里尤其有现实意义，因为很多研究特征并不全是连续数值。行业标签、交易状态、公告类型、报告季度、市场风格分组、人工离散分层，这些都带有明显的类别属性。若用别的模型，往往要先做一轮不算轻的编码处理；而 CatBoost 能更自然地接住这些列。

这并不只是“少写几行预处理代码”这么简单。更重要的是，它减少了你在手工编码过程中引入错误结构的风险。比如把行业编号错误地当连续数值看待，或者对高基数类别做出很不稳的展开。CatBoost 在这方面的处理方式，让它在量化这种表格列类型复杂、类别信息又经常有用的场景下显得特别顺手。

当然，这也不是说“有类别列就一定该上 CatBoost”。真正重要的是，你知道它在这里为什么有优势，而不是只记住一句“它支持类别特征”。只要这层原因想清楚，后面讨论输入规范时才会更自然。

五、为什么“能处理缺失值”不等于“可以忽略数据问题”

另一个经常被提到的优点，是 CatBoost 对缺失值有容忍度。这一点确实很实用，尤其在量化数据里，窗口不足、财报尚未披露、事件字段稀疏等情况都可能让某些列天然带缺。可这一点特别容易被误解成：既然 CatBoost 能处理缺失值，那输入表就可以很随意。这个理解非常危险。

因为模型能接受缺失值，不代表它能替你分辨缺失值到底来自正常业务逻辑，还是数据抓取异常、字段拼接错位、甚至未来函数污染。缺失值的来源如果没先搞清楚，模型只是把问题吃进去，并不会替你修正问题。对量化来说，这一点尤为关键。因为很多“模型好像不太稳”的问题，根本不是模型结构本身，而是输入数据的脏度被掩盖了。

所以，CatBoost 的缺失值优势应该被理解成“降低了合理预处理的负担”，而不是“可以无视输入质量”。只要这个边界先讲清楚，后面整个系列就会更稳。

六、为什么它在中等样本和表格因子场景里尤其容易体现价值

量化任务有个很现实的特点：很多研究样本并没有大到足以支撑特别复杂的深度模型基础设施，但又不是小到只能做线性回归或极简规则。这种中间地带其实非常常见。比如日频横截面因子表、事件驱动样本表、风格暴露加交易状态的结构化特征集，都往往落在这个区间里。CatBoost 在这些场景里很容易体现价值，因为它恰好在“能力够强”和“工程代价不至于过高”之间找到了一个很务实的平衡。

这也是为什么很多人真正把 CatBoost 用顺之后，会觉得它在量化里很实用。它不一定是最重型、最花哨的方案，但常常是足够强、足够稳定、又不会把你拖进过多额外工程负担的方案。尤其当你希望先快速验证一套结构化特征是否有信息量时，它往往比更复杂的路径更高效。

因此，本讲在给 CatBoost 定位时，很重要的一点就是看到它适合的工作面。它不是所有场景都该上，但在结构化表格、中等样本、类别列较多的量化任务里，它确实经常是很有竞争力的起点。

七、为什么 CatBoost 也有明确边界，知道“不该用在什么地方”同样重要

学一个模型时，很多人只关心它什么时候有用，却不太认真想它什么时候不该用。其实后者同样重要。对 CatBoost 来说，至少有几类场景就不该被无脑当成默认答案。比如问题核心在于复杂时序依赖，或者原始信息主要存在于文本、图像、订单流等非结构化载体里，这时强行把它们压扁成表格特征再交给 CatBoost，不一定是最自然的路线。又比如样本极小且目标噪声很大，模型越强，越容易把噪声也学进去。

知道这些边界的价值非常大。因为它能防止你把 CatBoost 神化成一把万能锤子。量化里真正成熟的研究者，不会因为一个工具流行就把所有问题都往里套，而是会先看问题形态，再决定模型是否合适。只要这种判断力先建立起来，后面你学 CatBoost 就不会变成机械跟风，而会始终围绕实际研究场景做选择。

所以本讲在一开始就强调边界，并不是为了泼冷水，而是在帮助你建立真正可长期使用的模型判断能力。

八、这一讲真正建立的，是“模型定位意识”，而不是参数记忆

如果把整套 CatBoost 系列往后看，会涉及输入规范、缺失值、时间切分、调参、早停、事件驱动应用和可解释性。这些内容都会越来越具体。可在它们之前，最值得先建立的，其实是模型定位意识。也就是你能清楚知道：CatBoost 在量化研究链路里扮演什么角色，它为什么常被拿来做强基线，它对哪些列类型特别有优势，它在哪些场景下值得优先考虑，又在哪些场景下不该被默认套用。

这种意识特别重要，因为它会让后面的技术细节全部有落点。你不再只是被动记住“这个参数怎么调、那个列怎么处理”，而会始终明白自己为什么要这么做。对量化建模来说，这种明白非常关键。因为最终决定研究质量的，往往不是你背下了多少 API，而是你是否真的知道自己为什么选这个模型、为什么不用别的。

因此，本讲虽然没有急着进代码，实际上却在搭整个系列最重要的认知地基。只要这块地基先立住，后面的具体操作会稳很多。

九、为什么这一讲做完后，最好已经形成“先问模型角色，再问模型技巧”的顺序

开篇这一讲最值得留下的一层顺序感，是先问模型角色，再问模型技巧。也就是说，在你去关心参数、输入格式、解释性和部署之前，先把 CatBoost 在整条量化研究链路里的角色放准。它是强基线、是表格模型、是对类别特征友好的工具，但不是可以替代研究设计的万能入口。只要这种顺序已经建立，后面的技术细节就不容易失焦。

这种顺序感非常重要，因为它会影响你后面对模型问题的判断方式。你会更自然地先回到“这个模型适不适合当前任务”，而不是一上来就陷进技巧层面。

十、这一讲也在帮你建立“模型选择服务于问题，不服务于流行度”的研究态度

量化研究里一个常见误区，就是模型越流行、越强大，就越值得优先拿来试。第 1 讲更想建立的是相反的研究态度：模型选择首先服务于当前问题，而不是服务于流行度。CatBoost 当然很强，但只有当任务结构、样本规模、特征类型和验证框架都合适时，它的优势才真正成立。只要这层态度已经建立，说明你对模型的判断已经开始变得成熟。

这层态度会长期帮到你。因为以后无论遇到 LightGBM、XGBoost 还是别的模型，你都更容易把它们放到合适位置，而不是被名字带着跑。

十一、总结

这一讲的重点，不是立刻训练 CatBoost，而是先把它在量化里的位置放准。它首先是一个很强的表格模型，尤其适合结构化特征、类别列较多、中等样本规模的任务，也很适合作为强基线模型来检验特征和标签设定是否有信息量。但它绝不是万能方案，更不能替代输入质量控制和时间切分纪律。只要这层定位意识先建立，后面整个 CatBoost 系列就会有清楚得多的主线。

十二、系列衔接

本讲是《CatBoost量化建模完整学习计划》的第 1 讲，当前主题是《先理解 CatBoost 在量化里的定位》。作为开篇，这一讲先把模型角色、优势边界和适用场景讲清楚。下一讲会直接进入最关键的落地问题：特征输入规范、类别列处理、缺失值分型，以及时间切分为什么在量化里是绝对不能让步的前提。

十三、风险揭示与免责声明

风险揭示与免责声明

本页面内容仅用于量化研究与技术交流，旨在展示研究方法与流程，不构成对任何金融产品、证券或衍生品的要约、招揽、推荐或保证。

本文所涉历史数据、回测结果与示例参数不代表未来表现，也不应作为投资决策依据。

市场存在波动、流动性与执行偏差等不确定性，任何策略均可能出现收益波动或阶段性失效。

读者应结合自身风险承受能力进行独立判断，并在必要时咨询持牌专业机构意见。

深圳融克迪特科技有限公司

【CatBoost 系列第2讲】特征输入规范：类别编码、缺失值与时间切分

目录

CatBoost · 工具实战

一、为什么在量化里谈 CatBoost，第一件事不是参数，而是先把它放回正确位置

二、为什么 CatBoost 首先应该被理解成一个强力表格模型，而不是泛化到一切问题的“高级算法”

三、为什么 CatBoost 在量化里常被拿来做强基线，而不是默认终局方案

四、为什么它对类别特征友好，在量化场景里尤其有现实价值

五、为什么“能处理缺失值”不等于“可以忽略数据问题”

六、为什么它在中等样本和表格因子场景里尤其容易体现价值

七、为什么 CatBoost 也有明确边界，知道“不该用在什么地方”同样重要

八、这一讲真正建立的，是“模型定位意识”，而不是参数记忆

九、为什么这一讲做完后，最好已经形成“先问模型角色，再问模型技巧”的顺序

十、这一讲也在帮你建立“模型选择服务于问题，不服务于流行度”的研究态度

十一、总结

十二、系列衔接

十三、风险揭示与免责声明

【CatBoost 系列 第2讲】特征输入规范：类别编码、缺失值与时间切分

目录

CatBoost · 工具实战

一、为什么在量化里谈 CatBoost，第一件事不是参数，而是先把它放回正确位置

二、为什么 CatBoost 首先应该被理解成一个强力表格模型，而不是泛化到一切问题的“高级算法”

三、为什么 CatBoost 在量化里常被拿来做强基线，而不是默认终局方案

四、为什么它对类别特征友好，在量化场景里尤其有现实价值

五、为什么“能处理缺失值”不等于“可以忽略数据问题”

六、为什么它在中等样本和表格因子场景里尤其容易体现价值

七、为什么 CatBoost 也有明确边界，知道“不该用在什么地方”同样重要

八、这一讲真正建立的，是“模型定位意识”，而不是参数记忆

九、为什么这一讲做完后，最好已经形成“先问模型角色，再问模型技巧”的顺序

十、这一讲也在帮你建立“模型选择服务于问题，不服务于流行度”的研究态度

十一、总结

十二、系列衔接

十三、风险揭示与免责声明

【CatBoost 系列第2讲】特征输入规范：类别编码、缺失值与时间切分