利用python清理wind下载的数据
由于需要用到wind上面的数据,同时变量比较多因此就写了一个小代码来自动处理并整理成面板数据。
需要的自取。
importpandasaspdimportnumpyasnppath=./all_data=pd.DataFrame()cols=[]##文件名字统一为data1.xlsx,data2.xlsx等##15这个数字根据自己的文件情况选择foriinrange(1,15):tmp=pd.read_excel(path+fdata{i}.xlsx,engine=openpyxl,header=None)tmp.drop(1,axis=1,inplace=True)col_name=tmp.iloc[0,0]col_name=col_name.split()[1]time_columns=tmp.iloc[1,:]time_columns[0]=idtime_columns=[id]+[col_name+x[:4]forxintime_columns[1:]]cols.append(col_name)data=pd.DataFrame(tmp.iloc[2:-2,:].values,columns=time_columns)data=data[data[id]!=西藏]data=pd.wide_to_long(data,col_name,id,year)all_data=pd.concat([all_data,data],axis=1)
最后效果如图:
哈哈哈下载才发现缺失值比较多,大家根据自己需要进行处理即可。
有缘再见。(凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数凑字数)
预览时标签不可点收录于话题#个上一篇下一篇