Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？

大多數(shù)情況下，會(huì)使用NumPy或Pandas來(lái)導(dǎo)入數(shù)據(jù)，因此在開(kāi)始之前，先執(zhí)行：

網(wǎng)站建設(shè)哪家好，找成都創(chuàng)新互聯(lián)！專(zhuān)注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、成都小程序開(kāi)發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶(hù)創(chuàng)新互聯(lián)還提供了廣南免費(fèi)建站歡迎大家使用！

import numpy as np
import pandas as pd

兩種獲取help的方法

很多時(shí)候?qū)σ恍┖瘮?shù)方法不是很了解，此時(shí)Python提供了一些幫助信息，以快速使用Python對(duì)象。

使用Numpy中的info方法。

np.info(np.ndarray.dtype)

Python內(nèi)置函數(shù)

help(pd.read_csv)

一、文本文件

1、純文本文件

filename = 'demo.txt'
file = open(filename, mode='r') # 打開(kāi)文件進(jìn)行讀取
text = file.read() # 讀取文件的內(nèi)容
print(file.closed) # 檢查文件是否關(guān)閉
file.close() # 關(guān)閉文件
print(text)

使用上下文管理器 -- with

with open('demo.txt', 'r') as file:
    print(file.readline()) # 一行一行讀取
    print(file.readline())
    print(file.readline())

2、表格數(shù)據(jù)：Flat文件

使用 Numpy 讀取 Flat 文件

Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語(yǔ)言級(jí)別的。

Flat 文件是一種包含沒(méi)有相對(duì)關(guān)系結(jié)構(gòu)的記錄的文件。（支持Excel、CSV和Tab分割符文件）

具有一種數(shù)據(jù)類(lèi)型的文件

用于分隔值的字符串跳過(guò)前兩行。在第一列和第三列讀取結(jié)果數(shù)組的類(lèi)型。

filename = 'mnist.txt'
data = np.loadtxt(filename,
                  delimiter=',',
                  skiprows=2,
                  usecols=[0,2],
                  dtype=str)

具有混合數(shù)據(jù)類(lèi)型的文件

兩個(gè)硬的要求：

跳過(guò)表頭信息
區(qū)分橫縱坐標(biāo)

filename = 'titanic.csv'
data = np.genfromtxt(filename,
                     delimiter=',',
                     names=True,
                     dtype=None)

使用 Pandas 讀取Flat文件

filename = 'demo.csv' 
data = pd.read_csv(filename, 
                   nrows=5,        # 要讀取的文件的行數(shù)
                   header=None,    # 作為列名的行號(hào)
                   sep='\t',       # 分隔符使用
                   comment='#',    # 分隔注釋的字符
                   na_values=[""]) # 可以識(shí)別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()是pandas中對(duì)excel表格文件進(jìn)行讀取相關(guān)操作非常方便快捷的類(lèi)，尤其是在對(duì)含有多個(gè)sheet的excel文件進(jìn)行操控時(shí)非常方便。

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
                       skiprows=[0],
                       names=['Country',
                              'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
                          sheet_name=0,
                          parse_cols=[0],
                          skiprows=[0],
                          names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱(chēng)。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計(jì)分析文件。

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
  df_sas = file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專(zhuān)業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。其保存的文件后綴名為.dta的Stata文件。

data = pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數(shù)據(jù)類(lèi)型（列表，字典，集合，類(lèi)等）都可以用pickle來(lái)序列化。python的pickle模塊實(shí)現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過(guò)pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\(yùn)行的對(duì)象信息保存到文件中去，永久存儲(chǔ)；通過(guò)pickle模塊的反序列化操作，我們能夠從文件中創(chuàng)建上一次程序保存的對(duì)象。

import pickle
with open('pickled_demo.pkl', 'rb') as file:
   pickled_data = pickle.load(file) # 下載被打開(kāi)被讀取到的數(shù)據(jù)

與其相對(duì)應(yīng)的操作是寫(xiě)入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一種常見(jiàn)的跨平臺(tái)數(shù)據(jù)儲(chǔ)存文件，可以存儲(chǔ)不同類(lèi)型的圖像和數(shù)碼數(shù)據(jù)，并且可以在不同類(lèi)型的機(jī)器上傳輸，同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫(kù)。

HDF5 文件一般以 .h5? 或者 .hdf5 作為后綴名，需要專(zhuān)門(mén)的軟件才能打開(kāi)預(yù)覽文件的內(nèi)容。

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

七、Matlab 文件

其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲(chǔ)的后綴為.mat的文件。

import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)

八、關(guān)系型數(shù)據(jù)庫(kù)

from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個(gè)表名列表

table_names = engine.table_names()

1、直接查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()

使用上下文管理器 -- with

with engine.connect() as con:
    rs = con.execute("SELECT OrderID FROM Orders")
    df = pd.DataFrame(rs.fetchmany(size=5))
    df.columns = rs.keys()

2、使用Pandas查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

df = pd.read_sql_query("SELECT * FROM Orders", engine)

數(shù)據(jù)探索

數(shù)據(jù)導(dǎo)入后會(huì)對(duì)數(shù)據(jù)進(jìn)行初步探索，如查看數(shù)據(jù)類(lèi)型，數(shù)據(jù)大小、長(zhǎng)度等一些基本信息。這里簡(jiǎn)單總結(jié)一些。

1、NumPy Arrays

data_array.dtype  # 數(shù)組元素的數(shù)據(jù)類(lèi)型
data_array.shape  # 陣列尺寸
len(data_array)   # 數(shù)組的長(zhǎng)度

2、Pandas DataFrames

df.head()  # 返回DataFrames前幾行（默認(rèn)5行）
df.tail()  # 返回DataFrames最后幾行（默認(rèn)5行）
df.index   # 返回DataFrames索引
df.columns # 返回DataFrames列名
df.info()  # 返回DataFrames基本信息
data_array = data.values # 將DataFrames轉(zhuǎn)換為NumPy數(shù)組

網(wǎng)站名稱(chēng)：Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？
文章URL：http://uogjgqi.cn/article/djddgei.html

掃二維碼與項(xiàng)目經(jīng)理溝通

我們?cè)谖⑿派?4小時(shí)期待你的聲音

解答本文疑問(wèn)/技術(shù)咨詢(xún)/運(yùn)營(yíng)咨詢(xún)/技術(shù)建議/互聯(lián)網(wǎng)交流

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？

兩種獲取help的方法

使用Numpy中的info方法。

Python內(nèi)置函數(shù)

一、文本文件

1、純文本文件

2、表格數(shù)據(jù)：Flat文件

使用 Numpy 讀取 Flat 文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關(guān)系型數(shù)據(jù)庫(kù)

1、直接查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

數(shù)據(jù)探索

1、NumPy Arrays

2、Pandas DataFrames

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧在百度地圖上找到我們

電話：13518219792

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？

兩種獲取help的方法

使用Numpy中的info方法。

Python內(nèi)置函數(shù)

一、文本文件

1、純文本文件

2、表格數(shù)據(jù)：Flat文件

使用 Numpy 讀取 Flat 文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

五、Pickled 文件

六、HDF5 文件

七、Matlab 文件

八、關(guān)系型數(shù)據(jù)庫(kù)

1、直接查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

數(shù)據(jù)探索

1、NumPy Arrays

2、Pandas DataFrames

掃二維碼與項(xiàng)目經(jīng)理溝通

其他資訊

行業(yè)動(dòng)態(tài)

企業(yè)網(wǎng)站建設(shè)的重要性！

服務(wù)項(xiàng)目

網(wǎng)站建設(shè)

移動(dòng)端/APP

微信/小程序

技術(shù)支持

其它服務(wù)

更多服務(wù)項(xiàng)目

聯(lián)系吧 在百度地圖上找到我們

電話：13518219792

Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？

一、文本文件

1、純文本文件

二、Excel 電子表格

三、SAS 文件

四、Stata 文件

七、Matlab 文件

八、關(guān)系型數(shù)據(jù)庫(kù)

2、使用Pandas查詢(xún)關(guān)系型數(shù)據(jù)庫(kù)

1、NumPy Arrays

2、Pandas DataFrames

企業(yè)網(wǎng)站建設(shè)的重要性！

聯(lián)系吧在百度地圖上找到我們