常见问题¶
我听说过 autoML 和自动化特征工程,这有什么不同?¶
AutoML 旨在解决一旦预测标签或目标被明确定义并可用后产生的问题。特征工程侧重于在给定数据集、标签和目标的情况下生成特征。两者都假设用户希望预测的目标已经被定义和计算好。在大多数实际场景中,这是数据科学家必须做的事情:定义一个要预测的结果并创建带标签的训练样本。我们对这个过程进行了结构化,并将其称为预测工程(借鉴了已经很明确的特征工程过程)。这个库为用户提供了一种简单的方式来定义目标结果,并从关系型、时序型、多实体数据集中自动生成训练样本。
我用 Featuretools 参加过 KAGGLE 比赛,我该如何使用 Compose?¶
在大多数 KAGGLE 比赛中,要预测的目标都已定义。在很多情况下,它们表示训练样本的方式与我们相同——“标签时间”(参见此处和此处)。Compose 处于 KAGGLE 开始之前的阶段。实际上,这是 KAGGLE 或赞助比赛的公司在发布比赛之前可能需要做或已经完成的步骤。
为什么我还没遇到需要使用 Compose 的情况?¶
在许多情况下,预测问题的设置是在开始机器学习之前独立完成的。这导致数据集的可用性非常不均衡,其中一些数据集已经定义了预测问题和标签。有时,这也导致数据科学家不知道标签是如何定义的。通过开放流程的这一部分,我们使数据科学家能够更灵活地定义问题、探索更多问题并解决问题,从而最大化最终目标——投资回报率 (ROI)。
我已经有“标签时间”文件了,还需要 Compose 吗?¶
如果您已经有标签时间,则不需要 LabelMaker 和 Search。但是,您可以使用 Compose 的标签转换功能来应用 lead 和 threshold,以及平衡标签。
Compose 的最佳用途是什么?¶
鉴于我们有自动化特征工程和 autoML,Compose 的最佳推荐用法是将 Compose 的 LabelMaker 和 Search 功能与机器学习管道的其余部分紧密结合。Search、LabelMaker 和 标签转换 中使用的某些参数可以与机器学习模型一起进行调优。
在哪里可以详细了解你们的技术方法?¶
您可以在这篇发表在 IEEE 数据科学与高级分析国际会议上的同行评审论文中阅读有关预测工程、我们定义的搜索算法和技术细节的内容。如果您有兴趣,也可以在此处观看视频。请注意,在我们构建此库并将 Compose 应用于不同的工业规模问题时,我们的一些想法和术语已经发生了演变。
你认为 Compose 应该成为数据科学家的工具箱一部分吗?¶
是的。正如我们上面提到的,从数据中提取价值取决于您如何设置预测问题。目前,数据科学家不会反复迭代地设置预测问题,因为没有结构化的方法或算法和库来帮助完成。我们认为,预测工程应该比实际解决问题的任何其他部分都更受到重视。
我如何贡献标注函数或用例?¶
我们非常欢迎任何人提供有趣的标注函数。要贡献一个有趣的新用例和标注函数,我们请您创建一个有代表性的合成数据集、一个标注函数以及标签生成器(label maker)的参数。一旦您拥有这三项,您可以写一篇关于用例的简要说明并提交一个拉取请求(pull request)。
我的交易文件最后一列是标签,我的标签时间是什么?¶
您的标签时间是 。然而,当给出这样的数据集时,应该询问该标签是如何生成的。可能有许多种情况:可能是一个人类根据他们的评估/分析分配的;可能是由系统自动生成的;也可能是使用某些数据计算得出的。如果是第三种情况,应该询问计算该标签的函数或重新编写它。如果是第一种情况,应该注意 ref_time 会略晚于交易时间戳。