掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢(xún)/運(yùn)營(yíng)咨詢(xún)/技術(shù)建議/互聯(lián)網(wǎng)交流
本文轉(zhuǎn)載自微信公眾號(hào)「數(shù)據(jù)大宇宙」,作者卡門(mén)的兒子。轉(zhuǎn)載本文請(qǐng)聯(lián)系數(shù)據(jù)大宇宙公眾號(hào)。

這是一個(gè)關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來(lái)源于 github 上的 guipsamora/pandas_exercises 。這個(gè)項(xiàng)目從基礎(chǔ)到進(jìn)階,可以檢驗(yàn)?zāi)阌卸嗝戳私?pandas。
我會(huì)挑選一些題目,并且提供比原題庫(kù)更多的解決方法以及更詳盡的解析。
如下數(shù)據(jù):
數(shù)據(jù)描述:
需求:數(shù)據(jù)中共有多少個(gè)訂單?
下面是答案了
因?yàn)?order_id 列是存在重復(fù)的,那么一種比較直觀的方式就是去重+計(jì)數(shù):
- len(df.order_id.drop_duplicates())
- 1834
但是你可能不知道的是,這個(gè)方式是不準(zhǔn)確的!
之所以說(shuō)上一種方式是不準(zhǔn)確,是因?yàn)闆](méi)有考慮到空值的問(wèn)題。
len 函數(shù)不會(huì)忽略空值(nan) ,因此如果列中有空值,那么就比正確結(jié)果數(shù)量多。
正確的做法是:
- len(df.order_id.drop_duplicates().dropna())
提示:
即使列中有多個(gè) nan ,經(jīng)過(guò)去重后只會(huì)保留一個(gè) nan 值
實(shí)際上,pandas 本身有提供一個(gè)忽略 nan 的計(jì)數(shù)方法:
- df.order_id.drop_duplicates().count()
點(diǎn)評(píng):
這種方式個(gè)人認(rèn)為最合適
pandas 為列(Series)提供了一個(gè)快速匯總計(jì)數(shù)方法:
- df.order_id.value_counts()
這相當(dāng)于實(shí)現(xiàn)了去重,因此:
- df.order_id.value_counts().count()
點(diǎn)評(píng):
不過(guò)我自制了一個(gè)方法查詢(xún)器,這樣子不至于記錯(cuò)方法:

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問(wèn)/技術(shù)咨詢(xún)/運(yùn)營(yíng)咨詢(xún)/技術(shù)建議/互聯(lián)網(wǎng)交流