Python序列化與反序列化相關知識總結
Python序列化與反序列
在程序運行的過程中,所有的變量都是在內(nèi)存中,比如,定義一個 dict:
d = dict(name='Bob', age=20, score=88)
可以隨時修改變量,比如把 name 改成 ‘Bill',但是一旦程序結束,變量所占用的內(nèi)存就被操作系統(tǒng)全部回收。如果沒有把修改后的 ‘Bill' 存儲到磁盤上,下次重新運行程序,變量又被初始化為 ‘Bob'。
我們把變量從內(nèi)存中變成可存儲或傳輸?shù)倪^程稱之為序列化,在 Python 中叫 pickling,在其他語言中也被稱之為 serialization,marshalling,flattening 等等,都是一個意思。
序列化之后,就可以把序列化后的內(nèi)容寫入磁盤,或者通過網(wǎng)絡傳輸?shù)絼e的機器上。

反過來,把變量內(nèi)容從序列化的對象重新讀到內(nèi)存里稱之為反序列化,即 unpickling。
Python 提供了 pickle 模塊來實現(xiàn)序列化。首先,我們嘗試把一個對象序列化并寫入文件:
In [1]: import pickle In [2]: d = dict(name='Bob', age=20, score=88) In [3]: pickle.dumps(d) Out[3]: b'\x80\x04\x95$\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x04name\x94\x8c\x03Bob\x94\x8c\x03age\x94K\x14\x8c\x05score\x94KXu.'
pickle.dumps() 方法把任意對象序列化成一個 bytes,然后,就可以把這個 bytes 寫入文件?;蛘哂昧硪粋€方法 pickle.dump() 直接把對象序列化后寫入一個 file-like Object:
In [5]: f = open('dump.txt', 'wb')
In [6]: d = dict(name='Bob', age=20, score=88)
In [7]: pickle.dump(d, f)
In [8]: f.close()
看看寫入的 dump.txt 文件,一堆亂七八糟的內(nèi)容,這些都是 Python 保存的對象內(nèi)部信息。

當我們要把對象從磁盤讀到內(nèi)存時,可以先把內(nèi)容讀到一個 bytes,然后用 pickle.loads() 方法反序列化出對象,也可以直接用 pickle.load() 方法從一個 file-like Object 中直接反序列化出對象。我們打開另一個 Python 命令行來反序列化剛才保存的對象:
In [23]: f = open('dump.txt', 'rb')
In [24]: d = pickle.load(f)
In [25]: f.close()
In [26]: d
Out[26]: {'name': 'Bob', 'age': 20, 'score': 88}
變量的內(nèi)容又回來了!
當然,這個變量和原來的變量是完全不相干的對象,它們只是內(nèi)容相同而已。
Pickle 的問題和所有其他編程語言特有的序列化問題一樣,就是它只能用于 Python,并且可能不同版本的 Python 彼此都不兼容,因此,只能用 Pickle 保存那些不重要的數(shù)據(jù),不能成功地反序列化也沒關系。
JSON
如果我們要在不同的編程語言之間傳遞對象,就必須把對象序列化為標準格式,比如 XML,但更好的方法是序列化為 JSON,因為 JSON 表示出來就是一個字符串,可以被所有語言讀取,也可以方便地存儲到磁盤或者通過網(wǎng)絡傳輸。JSON 不僅是標準格式,并且比 XML 更快,而且可以直接在 Web 頁面中讀取,非常方便。
JSON 表示的對象就是標準的 JavaScript 語言的對象,JSON 和 Python 內(nèi)置的數(shù)據(jù)類型對應如下:
| JSON類型 | Python類型 |
|---|---|
| {} | dict |
| [] | list |
| “string” | str |
| 1234.56 | int 或 float |
| true/false | True/False |
| null | None |
Python 內(nèi)置的 json 模塊提供了非常完善的 Python 對象到 JSON 格式的轉換。我們先看看如何把 Python對象變成一個 JSON:
In [27]: import json
In [28]: d = dict(name='Bob', age=20, score=88)
In [29]: json.dumps(d)
Out[29]: '{"name": "Bob", "age": 20, "score": 88}'
In [30]: type(json.dumps(d))
Out[30]: str
dumps() 方法返回一個 str,內(nèi)容就是標準的 JSON。類似的,dump() 方法可以直接把 JSON 寫入一個 file-like Object。
要把 JSON 反序列化為 Python 對象,用 loads() 或者對應的 load() 方法,前者把 JSON 的字符串反序列化,后者從 file-like Object 中讀取字符串并反序列化:
In [31]: json_str = '{"age": 20, "score": 88, "name": "Bob"}'
In [32]: json.loads(json_str)
Out[32]: {'age': 20, 'score': 88, 'name': 'Bob'}
In [33]: type(json.loads(json_str))
Out[33]: dict
由于 JSON 標準規(guī)定 JSON 編碼是 UTF-8,所以我們總是能正確地在 Python 的 str 與 JSON 的字符串之間轉換。
JSON 進階
Python 的 dict 對象可以直接序列化為 JSON 的 {},不過,很多時候,我們更喜歡用 class . 表示對象,比如定義 Student 類,然后序列化:
import json
class Student(object):
def __init__(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))
運行代碼,毫不留情地得到一個 TypeError:
Traceback (most recent call last): ... TypeError: Object of type Student is not JSON serializable
錯誤的原因是 Student 對象不是一個可序列化為 JSON 的對象。
如果連 class 的實例對象都無法序列化為 JSON,這肯定不合理!
別急,我們仔細看看 dumps() 方法的參數(shù)列表,可以發(fā)現(xiàn),除了第一個必須的 obj 參數(shù)外,dumps() 方法還提供了一大堆的可選參數(shù):https://docs.python.org/3/library/json.html#json.dumps
這些可選參數(shù)就是讓我們來定制 JSON 序列化。前面的代碼之所以無法把 Student 類實例序列化為 JSON,是因為默認情況下,dumps() 方法不知道如何將 Student 實例變?yōu)橐粋€ JSON 的 {} 對象。
可選參數(shù) default 就是把任意一個對象變成一個可序列為 JSON 的對象,我們只需要為 Student 專門寫一個轉換函數(shù),再把函數(shù)傳進去即可:
In [40]: s.name Out[40]: 'Bob' In [41]: s.age Out[41]: 20 In [42]: s.score Out[42]: 88
def student2dict(std):
return {
'name': std.name,
'age': std.age,
'score': std.score
}
這樣,Student 實例首先被 student2dict() 函數(shù)轉換成 dict,然后再被順利序列化為 JSON:
print(json.dumps(s, default=student2dict))
不過,下次如果遇到一個 Teacher 類的實例,照樣無法序列化為 JSON。再寫一個函數(shù) 也可以,但是我們可以偷個懶,把任意 class 的實例變?yōu)?dict:
print(json.dumps(s, default=lambda obj: obj.__dict__))
因為通常 class 的實例都有一個 __dict__ 屬性,它就是一個 dict,用來存儲實例變量。也有少數(shù)例外,比如定義了 __slots__ 的 class。
同樣的道理,如果我們要把 JSON 反序列化為一個 Student 對象實例,loads() 方法首先轉換出一個 dict 對象,然后,我們傳入的 object_hook 函數(shù)負責把 dict 轉換為 Student 實例:
def dict2student(d): return Student(d['name'], d['age'], d['score'])
運行結果如下:
In [48]: json_str = '{"age": 20, "score": 88, "name": "Bob"}'
In [49]: def dict2student(d):
...: return Student(d['name'], d['age'], d['score'])
...:
In [50]: print(json.loads(json_str, object_hook=dict2student))
<__main__.Student object at 0x1065c6f70>
打印出的是反序列化的 Student 實例對象。
練習
對中文進行 JSON 序列化時,json.dumps() 提供了一個 ensure_ascii 參數(shù),觀察該參數(shù)對結果的影響:
import json obj = dict(name='小明', age=20) s = json.dumps(obj, ensure_ascii=True) print(s)
小結
Python 語言特定的序列化模塊是pickle,但如果要把序列化搞得更通用、更符合 Web 標準,就可以使用 json 模塊。
json 模塊的 dumps() 和 loads() 函數(shù)是定義得非常好的接口的典范。當我們使用時,只需要傳入一個必須的參數(shù)。但是,當默認的序列化或反序列機制不滿足我們的要求時,我們又可以傳入更多的參數(shù)來定制序列化或反序列化的規(guī)則,既做到了接口簡單易用,又做到了充分的擴展性和靈活性。
到此這篇關于Python序列化與反序列化相關知識總結的文章就介紹到這了,更多相關Python序列化與反序列內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持本站!
版權聲明:本站文章來源標注為YINGSOO的內(nèi)容版權均為本站所有,歡迎引用、轉載,請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站,禁止在非maisonbaluchon.cn所屬的服務器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權,請聯(lián)系alex-e#qq.com處理。
關注官方微信