国产成人AV无码一二三区,少女1到100集,国产精品久久久久精品综合紧,巜公妇之诱感肉欲HD在线播放

文章 > Python常见问题 > python如何做数据清洗?

python如何做数据清洗?

头像

 Ly

2020-05-26 14:57:495901浏览 · 0收藏 · 0评论

1.数据清洗的代码:

import pandas as pd
import numpy as np
# 创建空的df,保存测试数据
test_df = pd.DataFrame({'K1':['C1','C1','C2','C3','C4','C2','C1'],'K2':['A','A','B','C','D',np.NaN,np.NaN]})
# 按K1列进行分组,组内进行unique操作(去除重复元素,返回元组或列表)
test_df_unique = pd.DataFrame(test_df.groupby(['K1'])['K2'].agg('unique'))
# 自定义函数判断元组中是否含有nan
def has_nan(list):
    flag = False
    for x in list:
        if x is np.NaN:
            flag = True
            break
    return flag
# 自定义函数判断元组中是否不含有nan
def no_nan(list):
    flag = True
    for x in list:
        if x is np.NaN:
            flag = False
            break
    return flag
# 获取k2列含有nan的数据
test_df_unique_has_nan = test_df_unique[test_df_unique['K2'].apply(has_nan)]
# 获取k2列不含有nan的数据
test_df_unique_no_nan = test_df_unique[test_df_unique['K2'].apply(no_nan)]
# 管理测试数据,获取源数据
test_df_get = test_df[test_df['K1'].isin(test_df_unique_has_nan.index.tolist())]
test_df_alone = test_df[test_df['K1'].isin(test_df_unique_no_nan.index.tolist())]
# 去除含nan的重复数据
test_df_get_nonan = test_df_get[~test_df_get['K2'].isna()]
# 组合数据
result = test_df_get_nonan.append(test_df_alone)
# 去重,得到最终结果
result_save = result.drop_duplicates(subset=['K1','K2'],keep='last')
# 结果落地
result_save.to_excel('C:/Users/zhen/Desktop/数据清洗之去重.xlsx')

2、测试数据:

p1.jpg

3、结果:

p2.jpg

关注

关注公众号,随时随地在线学习

本教程部分素材来源于网络,版权问题联系站长!

《特殊游泳教练》| 灭火宝贝2:决战丛林| 舞蹈生带着小玩具练芭蕾视频| 男女一起生宝宝| NYLONJP| 法国色情巜宝贝宝贝3| 黑料 官网| 漂亮的小瘦子3| 朋友的妈妈| 老师你感受到它变大了么视频| 台湾版《黄花闺女》完整版 | 少女国产免费观看高清电视剧 | 97精品无码AV九九九九九九| 《厨房激战5》完整版在线观看| 51漫画入口界面尾巴| 国精产品一品二品国精HTC| 情趣内衣| 亚州久久久久久精品A片69| 免费观看已满十八岁电视剧在线播. | 快拨出天我是你母亲歌词监控| 漂亮的女邻居5》HD | 公与媳中文字幕乱码的预防方法 | 大龟慢慢挺进我的体内| 《熟妇的荡欲》HD中字| 男生的困困到女生困困里视频免费| 90多岁老太太阴部下坠怎么办| 厨房激战饥荒老奶奶能睡觉吗| 亚马逊的眼泪| 《交换做爰》在线观看| 初中女生光溜溜身子| 东北娘们国语版免费播放| 《厨房激战5》完整版在线观看| 囚禁PLAY强制灌药玩弄H| 小视频| 苍井空《办公室爱欲》| 性做爰A片春欲| 黄金网站APP免费| 《健身教练》浸画全集| 《师生恋:禁忌之恋》结局| 免费韩漫无遮漫画| 老公说我越来越骚的心理