pandas -在具有重复年份的时间序列数据中添加缺失
本文介绍了 pandas -在具有重复年份的时间序列数据中添加缺失年份的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个这样的数据集,其中某些年份的数据丢失。
County Year Pop
12 1999 1.1
12 2001 1.2
13 1999 1.0
13 2000 1.1
我想要
County Year Pop
12 1999 1.1
12 2000 NaN
12 2001 1.2
13 1999 1.0
13 2000 1.1
13 2001 nan
我尝试将索引设置为Year,然后将Reindex与另一个数据帧的Just Year方法(这里提到的Pandas: Add data for missing months)一起使用,但它给出错误:无法使用重复值重新编制索引。我也试过df.loc,但它有同样的问题。我甚至尝试了一个只有几年的空白df的完全外连接,但也不起作用。
我如何解决此问题?
推荐答案
创建多个索引,这样就不会有重复项:
df.set_index(['County', 'Year'], inplace=True)
然后使用所有组合构造一个完整的多索引:
index = pd.MultiIndex.from_product(df.index.levels)
然后重新编制索引:
df.reindex(index)
多重指数的构建未经测试,可能需要稍作调整(例如,如果所有县完全不存在一年),但我认为您明白这一点。
这篇关于 pandas -在具有重复年份的时间序列数据中添加缺失年份的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!