Python列表去重的4種方式及性能對比

列表去重是Python中一種常見的處理方式，任何編程場景都可能會遇到需要列表去重的情況。

創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供武隆網(wǎng)站建設(shè)、武隆做網(wǎng)站、武隆網(wǎng)站設(shè)計(jì)、武隆網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、武隆企業(yè)網(wǎng)站模板建站服務(wù)，十余年武隆做網(wǎng)站經(jīng)驗(yàn)，不只是建網(wǎng)站，更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

列表去重的方式有很多，本文將一一講解他們，并進(jìn)行性能的對比。

讓我們先制造一些簡單的數(shù)據(jù)，生成0到99的100萬個隨機(jī)數(shù)：

 
 
 
 
  
  
  
  from random import randrange 
  
  
  
  DUPLICATES = [randrange(100) for _ in range(1000000)]

接下來嘗試這4種去重方式中最簡單直觀的方法：

1. 新建一個數(shù)組，遍歷原數(shù)組，如果值不在新數(shù)組里便加入到新數(shù)組中。

 
 
 
 
  
  
  
  # 第一種方式 
  
  
  
  def easy_way(): 
  
  
  
      unique = [] 
  
  
  
      for element in DUPLICATES: 
  
  
  
          if element not in unique: 
  
  
  
              unique.append(element) 
  
  
  
      return unique

進(jìn)入ipython使用timeit計(jì)算其去重耗時(shí)：

 
 
 
 
  
  
  
  %timeit easy_way() 
  
  
  
  # 1.16 s ± 137 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

平均耗時(shí)在1.16秒左右，但是在這個例子中我們使用了數(shù)組作為存儲對象，實(shí)際上如果我們改成集合存儲去重后的結(jié)果，性能會快不少：

 
 
 
 
  
  
  
  def easy_way(): 
  
  
  
      unique = set() 
  
  
  
      for element in DUPLICATES: 
  
  
  
          if element not in unique: 
  
  
  
              unique.add(element) 
  
  
  
      return unique

 
 
 
 
  
  
  
  %timeit easy_way() 
  
  
  
  # 48.4 ms ± 11.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

平均耗時(shí)在48毫秒左右，改善明顯，這是因?yàn)榧虾蛿?shù)組的內(nèi)在數(shù)據(jù)結(jié)構(gòu)完全不同，集合使用了哈希表，因此速度會比列表快許多，但缺點(diǎn)在于無序。

接下來看看第2種方式：

2. 直接對數(shù)組進(jìn)行集合轉(zhuǎn)化，然后再轉(zhuǎn)回?cái)?shù)組：

 
 
 
 
  
  
  
  # 第二種去重方式 
  
  
  
  def fast_way() 
  
  
  
      return list(set(DUPLICATES))

耗時(shí)：

 
 
 
 
  
  
  
  %timeit fast_way() 
  
  
  
  # 14.2 ms ± 1.73 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

平均耗時(shí)14毫秒，這種去重方式是最快的，但正如前面所說，集合是無序的，將數(shù)組轉(zhuǎn)為集合后再轉(zhuǎn)為列表，就失去了原有列表的順序。

如果現(xiàn)在有保留原數(shù)組順序的需要，那么這個方式是不可取的，怎么辦呢?

3. 保留原有數(shù)組順序的去重

使用dict.fromkeys()函數(shù)，可以保留原有數(shù)組的順序并去重：

 
 
 
 
  
  
  
  def save_order(): 
  
  
  
      return list(dict.fromkeys(DUPLICATES))

當(dāng)然，它會比單純用集合進(jìn)行去重的方式耗時(shí)稍微久一點(diǎn)：

 
 
 
 
  
  
  
  %timeit save_order() 
  
  
  
  # 39.5 ms ± 8.66 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

平均耗時(shí)在39.5毫秒，我認(rèn)為這是可以接受的耗時(shí)，畢竟保留了原數(shù)組的順序。

但是，dict.fromkeys()僅在Python3.6及以上才支持。

如果你是Python3.6以下的版本，那么可能要考慮第四種方式了。

4. Python3.6以下的列表保留順序去重

在Python3.6以下，其實(shí)也存在fromkeys函數(shù)，只不過它由collections提供：

 
 
 
 
  
  
  
  from collections import OrderedDict 
  
  
  
  def save_order_below_py36(): 
  
  
  
      return list(OrderedDict.fromkeys(DUPLICATES))

耗時(shí)：

 
 
 
 
  
  
  
  %timeit save_order_below_py36() 
  
  
  
  # 71.8 ms ± 16.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

平均耗時(shí)在72毫秒左右，比 Python3.6 的內(nèi)置dict.fromkeys()慢一些，因?yàn)镺rderedDict是用純Python實(shí)現(xiàn)的。

【責(zé)任編輯：趙寧寧 TEL：（010）68476606】

標(biāo)題名稱：Python列表去重的4種方式及性能對比
標(biāo)題鏈接：http://uogjgqi.cn/article/dpodipe.html

掃二維碼與項(xiàng)目經(jīng)理溝通

我們在微信上24小時(shí)期待你的聲音

解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Python列表去重的4種方式及性能對比

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Python列表去重的4種方式及性能對比

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們