洗浴间和卫生间的区别?
在讨论这个题目之前,先简单地介绍一下我们团队正在做的研究项目——基于深度学习的家庭水消耗量预测。这是一个利用机器学习方法解决家居生活的实际问题的案例。我们的数据集来自某市政自来水公司对201户家庭的在线跟踪调查(图1)。这些被追踪的家庭中,每天的水消耗情况都有所不同,有的家庭用水量大,有的是小水量用户。 图1. 调查问卷截图 我们使用的机器学习模型需要输入每个家庭的平均水消费量和每日水的使用量。
为了获得每日的用水量,我们需要收集每个家庭的所有水龙头、马桶、浴室、洗衣机的用水数据。由于这些设备的使用情况和人口变化有关,因此我们需要同时收集这些家庭的人口数信息和设备使用情况(如表 1所示)。
通过分析这些家庭的历史用水数据和人口信息,我们就可以建立每个家庭的水消耗量预测模型并用于未来时刻的预测。该模型可以精确地预测出用户在特定时间点的用水需求。
表1 家庭用水量及其影响因素 由于用水量的测量是对家庭水表的实时跟踪,而人口信息和设备使用情况是通过询问家庭得到的答案。所以,这个建模问题其实是包含了时序和空间两个关联要素的混合数据分析问题。我们采用的方法是结合深度学习和空间相关性的方法来解决这类问题。
我们的模型训练和测试过程如下:首先,我们从201个家庭中随机选取50个作为训练样本,剩下的151个家庭作为测试样本。然后,我们对训练样本中的每一个实例分别进行深度学习方法的训练和学习,得到每一个实例的预测值。最后我们把这50个训练后的模型用来对测试样本进行预测,得出每个测试样本的预测值。 最后,我们把各家庭的水表读数和由模型得到的预测值相减,得到各个家庭真实的水耗量(图2)。然后利用方差和均值等统计量来评估每一家庭水消费的差异性。
通过对比我们的模型输出和真实值,我们可以发现,对于大多数家庭而言,我们的模型能很好地预测它们的用水量。只有少数几个家庭的表现偏差较大。我们通过分析这些表现偏差的例子,发现了造成这些问题的原因。然后对这些家庭进行了特殊处理,从而提升了整体算法的精度。 这个项目目前处于研发阶段,即将提交论文并发表。