Dataiku 中针对 Haiku T 恤示例的部分依赖图
Dataiku 中针对 Haiku T 恤示例的部分依赖图亚群分析
在将模型投入生产之前,人们可能首先要调查该模型在不同子群体中的表现是否相同。如果该模型在预测一个群体的结果方面比另一个群体更好,那么在投入生产时可能会导致有偏差的结果和意想不到的后果。
对于使用 Python 训练的回归和二 加纳电报数据 元分类模型(例如 scikit-learn、keras、自定义模型),Dataiku 可以计算并显示子群体分析。主要分析是一个包含各种统计数据的表格,您可以根据所选列的值跨子群体进行比较。您需要针对您的用例确定什么是“公平”。
例如,下表显示了我们 Haiku T 恤示例中性别列的子群体分析。模型预测的男性和女性概率接近,但不完全相同。根据用例,我们可能会认为这种差异不足以值得进一步调查。
Dataiku 中针对 Haiku T 恤示例的亚群分析
Dataiku 中针对 Haiku T 恤示例的亚群分析
通过单击表格中的一行,Dataiku 允许您查看与该行所代表的子群体相关的更详细的统计数据。例如,下图显示了性别值缺失的行的扩展显示。该子群体的实际真实行数低于男性或女性。通过比较该子群体与总体群体的实际类别百分比视图,看起来该模型在预测性别缺失的实际真实行方面比其他方法做得更好。
頁:
[1]