理解 Python 的 Dataclasses(一)
如果你正在閱讀本文,那麼你已經意識到了 Python 3.7 以及它所包含的新特性。就我個人而言,我對 Dataclasses
感到非常興奮,因為我等了它一段時間了。
本系列包含兩部分:
- Dataclass 特點概述
- 在下一篇文章概述 Dataclass 的
fields
介紹
Dataclasses
是 Python 的類(LCTT 譯註:更準確的說,它是一個模塊),適用於存儲數據對象。你可能會問什麼是數據對象?下面是定義數據對象的一個不太詳細的特性列表:
- 它們存儲數據並代表某種數據類型。例如:一個數字。對於熟悉 ORM 的人來說,模型實例就是一個數據對象。它代表一種特定的實體。它包含那些定義或表示實體的屬性。
- 它們可以與同一類型的其他對象進行比較。例如:一個數字可以是
greater than
(大於)、less than
(小於) 或equal
(等於) 另一個數字。
當然還有更多的特性,但是這個列表足以幫助你理解問題的關鍵。
為了理解 Dataclasses
,我們將實現一個包含數字的簡單類,並允許我們執行上面提到的操作。
首先,我們將使用普通類,然後我們再使用 Dataclasses
來實現相同的結果。
但在我們開始之前,先來談談 Dataclasses
的用法。
Python 3.7 提供了一個裝飾器 dataclass,用於將類轉換為 dataclass
。
你所要做的就是將類包在裝飾器中:
from dataclasses import dataclass
@dataclass
class A:
...
現在,讓我們深入了解一下 dataclass
帶給我們的變化和用途。
初始化
通常是這樣:
class Number:
def __init__(self, val):
self.val = val
>>> one = Number(1)
>>> one.val
>>> 1
用 dataclass
是這樣:
@dataclass
class Number:
val:int
>>> one = Number(1)
>>> one.val
>>> 1
以下是 dataclass
裝飾器帶來的變化:
- 無需定義
__init__
,然後將值賦給self
,dataclass
負責處理它(LCTT 譯註:此處原文可能有誤,提及一個不存在的d
) - 我們以更加易讀的方式預先定義了成員屬性,以及類型提示。我們現在立即能知道
val
是int
類型。這無疑比一般定義類成員的方式更具可讀性。
Python 之禪: 可讀性很重要
它也可以定義默認值:
@dataclass
class Number:
val:int = 0
表示
對象表示指的是對象的一個有意義的字元串表示,它在調試時非常有用。
默認的 Python 對象表示不是很直觀:
class Number:
def __init__(self, val = 0):
self.val = val
>>> a = Number(1)
>>> a
>>> <__main__.Number object at 0x7ff395b2ccc0>
這讓我們無法知悉對象的作用,並且會導致糟糕的調試體驗。
一個有意義的表示可以通過在類中定義一個 __repr__
方法來實現。
def __repr__(self):
return self.val
現在我們得到這個對象有意義的表示:
>>> a = Number(1)
>>> a
>>> 1
dataclass
會自動添加一個 __repr__
函數,這樣我們就不必手動實現它了。
@dataclass
class Number:
val: int = 0
>>> a = Number(1)
>>> a
>>> Number(val = 1)
數據比較
通常,數據對象之間需要相互比較。
兩個對象 a
和 b
之間的比較通常包括以下操作:
a < b
a > b
a == b
a >= b
a <= b
在 Python 中,能夠在可以執行上述操作的類中定義方法。為了簡單起見,不讓這篇文章過於冗長,我將只展示 ==
和 <
的實現。
通常這樣寫:
class Number:
def __init__( self, val = 0):
self.val = val
def __eq__(self, other):
return self.val == other.val
def __lt__(self, other):
return self.val < other.val
使用 dataclass
:
@dataclass(order = True)
class Number:
val: int = 0
是的,就是這樣簡單。
我們不需要定義 __eq__
和 __lt__
方法,因為當 order = True
被調用時,dataclass
裝飾器會自動將它們添加到我們的類定義中。
那麼,它是如何做到的呢?
當你使用 dataclass
時,它會在類定義中添加函數 __eq__
和 __lt__
。我們已經知道這點了。那麼,這些函數是怎樣知道如何檢查相等並進行比較呢?
生成 __eq__
函數的 dataclass
類會比較兩個屬性構成的元組,一個由自己屬性構成的,另一個由同類的其他實例的屬性構成。在我們的例子中,自動
生成的 __eq__
函數相當於:
def __eq__(self, other):
return (self.val,) == (other.val,)
讓我們來看一個更詳細的例子:
我們會編寫一個 dataclass
類 Person
來保存 name
和 age
。
@dataclass(order = True)
class Person:
name: str
age:int = 0
自動生成的 __eq__
方法等同於:
def __eq__(self, other):
return (self.name, self.age) == ( other.name, other.age)
請注意屬性的順序。它們總是按照你在 dataclass
類中定義的順序生成。
同樣,等效的 __le__
函數類似於:
def __le__(self, other):
return (self.name, self.age) <= (other.name, other.age)
當你需要對數據對象列表進行排序時,通常會出現像 __le__
這樣的函數的定義。Python 內置的 sorted 函數依賴於比較兩個對象。
>>> import random
>>> a = [Number(random.randint(1,10)) for _ in range(10)] #generate list of random numbers
>>> a
>>> [Number(val=2), Number(val=7), Number(val=6), Number(val=5), Number(val=10), Number(val=9), Number(val=1), Number(val=10), Number(val=1), Number(val=7)]
>>> sorted_a = sorted(a) #Sort Numbers in ascending order
>>> [Number(val=1), Number(val=1), Number(val=2), Number(val=5), Number(val=6), Number(val=7), Number(val=7), Number(val=9), Number(val=10), Number(val=10)]
>>> reverse_sorted_a = sorted(a, reverse = True) #Sort Numbers in descending order
>>> reverse_sorted_a
>>> [Number(val=10), Number(val=10), Number(val=9), Number(val=7), Number(val=7), Number(val=6), Number(val=5), Number(val=2), Number(val=1), Number(val=1)]
dataclass
作為一個可調用的裝飾器
定義所有的 dunder
(LCTT 譯註:這是指雙下劃線方法,即魔法方法)方法並不總是值得的。你的用例可能只包括存儲值和檢查相等性。因此,你只需定義 __init__
和 __eq__
方法。如果我們可以告訴裝飾器不生成其他方法,那麼它會減少一些開銷,並且我們將在數據對象上有正確的操作。
幸運的是,這可以通過將 dataclass
裝飾器作為可調用對象來實現。
從官方文檔來看,裝飾器可以用作具有如下參數的可調用對象:
@dataclass(init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False)
class C:
…
init
:默認將生成__init__
方法。如果傳入False
,那麼該類將不會有__init__
方法。repr
:__repr__
方法默認生成。如果傳入False
,那麼該類將不會有__repr__
方法。eq
:默認將生成__eq__
方法。如果傳入False
,那麼__eq__
方法將不會被dataclass
添加,但默認為object.__eq__
。order
:默認將生成__gt__
、__ge__
、__lt__
、__le__
方法。如果傳入False
,則省略它們。
我們在接下來會討論 frozen
。由於 unsafe_hash
參數複雜的用例,它值得單獨發布一篇文章。
現在回到我們的用例,以下是我們需要的:
__init__
__eq__
默認會生成這些函數,因此我們需要的是不生成其他函數。那麼我們該怎麼做呢?很簡單,只需將相關參數作為 false 傳入給生成器即可。
@dataclass(repr = False) # order, unsafe_hash and frozen are False
class Number:
val: int = 0
>>> a = Number(1)
>>> a
>>> <__main__.Number object at 0x7ff395afe898>
>>> b = Number(2)
>>> c = Number(1)
>>> a == b
>>> False
>>> a < b
>>> Traceback (most recent call last):
File 「<stdin>」, line 1, in <module>
TypeError: 『<』 not supported between instances of 『Number』 and 『Number』
Frozen(不可變) 實例
Frozen 實例是在初始化對象後無法修改其屬性的對象。
無法創建真正不可變的 Python 對象
在 Python 中創建對象的不可變屬性是一項艱巨的任務,我將不會在本篇文章中深入探討。
以下是我們期望不可變對象能夠做到的:
>>> a = Number(10) #Assuming Number class is immutable
>>> a.val = 10 # Raises Error
有了 dataclass
,就可以通過使用 dataclass
裝飾器作為可調用對象配合參數 frozen=True
來定義一個 frozen
對象。
當實例化一個 frozen
對象時,任何企圖修改對象屬性的行為都會引發 FrozenInstanceError
。
@dataclass(frozen = True)
class Number:
val: int = 0
>>> a = Number(1)
>>> a.val
>>> 1
>>> a.val = 2
>>> Traceback (most recent call last):
File 「<stdin>」, line 1, in <module>
File 「<string>」, line 3, in __setattr__
dataclasses.FrozenInstanceError: cannot assign to field 『val』
因此,一個 frozen
實例是一種很好方式來存儲:
- 常數
- 設置
這些通常不會在應用程序的生命周期內發生變化,任何企圖修改它們的行為都應該被禁止。
後期初始化處理
有了 dataclass
,需要定義一個 __init__
方法來將變數賦給 self
這種初始化操作已經得到了處理。但是我們失去了在變數被賦值之後立即需要的函數調用或處理的靈活性。
讓我們來討論一個用例,在這個用例中,我們定義一個 Float
類來包含浮點數,然後在初始化之後立即計算整數和小數部分。
通常是這樣:
import math
class Float:
def __init__(self, val = 0):
self.val = val
self.process()
def process(self):
self.decimal, self.integer = math.modf(self.val)
>>> a = Float( 2.2)
>>> a.decimal
>>> 0.2000
>>> a.integer
>>> 2.0
幸運的是,使用 post_init 方法已經能夠處理後期初始化操作。
生成的 __init__
方法在返回之前調用 __post_init__
返回。因此,可以在函數中進行任何處理。
import math
@dataclass
class FloatNumber:
val: float = 0.0
def __post_init__(self):
self.decimal, self.integer = math.modf(self.val)
>>> a = Number(2.2)
>>> a.val
>>> 2.2
>>> a.integer
>>> 2.0
>>> a.decimal
>>> 0.2
多麼方便!
繼承
Dataclasses
支持繼承,就像普通的 Python 類一樣。
因此,父類中定義的屬性將在子類中可用。
@dataclass
class Person:
age: int = 0
name: str
@dataclass
class Student(Person):
grade: int
>>> s = Student(20, "John Doe", 12)
>>> s.age
>>> 20
>>> s.name
>>> "John Doe"
>>> s.grade
>>> 12
請注意,Student
的參數是在類中定義的欄位的順序。
繼承過程中 __post_init__
的行為是怎樣的?
由於 __post_init__
只是另一個函數,因此必須以傳統方式調用它:
@dataclass
class A:
a: int
def __post_init__(self):
print("A")
@dataclass
class B(A):
b: int
def __post_init__(self):
print("B")
>>> a = B(1,2)
>>> B
在上面的例子中,只有 B
的 __post_init__
被調用,那麼我們如何調用 A
的 __post_init__
呢?
因為它是父類的函數,所以可以用 super
來調用它。
@dataclass
class B(A):
b: int
def __post_init__(self):
super().__post_init__() # 調用 A 的 post init
print("B")
>>> a = B(1,2)
>>> A
B
結論
因此,以上是 dataclass
使 Python 開發人員變得更輕鬆的幾種方法。
我試著徹底覆蓋大部分的用例,但是,沒有人是完美的。如果你發現了錯誤,或者想讓我注意相關的用例,請聯繫我。
我將在另一篇文章中介紹 dataclasses.field 和 unsafe_hash
。
更新:dataclasses.field
的文章可以在這裡找到。
via: https://medium.com/mindorks/understanding-python-dataclasses-part-1-c3ccd4355c34
作者:Shikhar Chauhan 譯者:MjSeven 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive