理解 Python 的 Dataclasses（一）

如果你正在閱讀本文，那麼你已經意識到了 Python 3.7 以及它所包含的新特性。就我個人而言，我對 Dataclasses 感到非常興奮，因為我等了它一段時間了。

本系列包含兩部分：

Dataclass 特點概述
在下一篇文章概述 Dataclass 的 fields

介紹

Dataclasses 是 Python 的類（LCTT 譯註：更準確的說，它是一個模塊），適用於存儲數據對象。你可能會問什麼是數據對象？下面是定義數據對象的一個不太詳細的特性列表：

它們存儲數據並代表某種數據類型。例如：一個數字。對於熟悉 ORM 的人來說，模型實例就是一個數據對象。它代表一種特定的實體。它包含那些定義或表示實體的屬性。
它們可以與同一類型的其他對象進行比較。例如：一個數字可以是 greater than（大於）、less than（小於）或 equal（等於）另一個數字。

當然還有更多的特性，但是這個列表足以幫助你理解問題的關鍵。

為了理解 Dataclasses，我們將實現一個包含數字的簡單類，並允許我們執行上面提到的操作。

首先，我們將使用普通類，然後我們再使用 Dataclasses 來實現相同的結果。

但在我們開始之前，先來談談 Dataclasses 的用法。

Python 3.7 提供了一個裝飾器 dataclass，用於將類轉換為 dataclass。

你所要做的就是將類包在裝飾器中：

from dataclasses import dataclass

@dataclass
class A:
 ...

現在，讓我們深入了解一下 dataclass 帶給我們的變化和用途。

初始化

通常是這樣：

class Number:

    def __init__(self, val):
        self.val = val

>>> one = Number(1)
>>> one.val
>>> 1

用 dataclass 是這樣：

@dataclass
class Number:
    val:int 

>>> one = Number(1)
>>> one.val
>>> 1

以下是 dataclass 裝飾器帶來的變化：

無需定義 __init__，然後將值賦給 self，dataclass 負責處理它（LCTT 譯註：此處原文可能有誤，提及一個不存在的 d）
我們以更加易讀的方式預先定義了成員屬性，以及類型提示。我們現在立即能知道 val 是 int 類型。這無疑比一般定義類成員的方式更具可讀性。

Python 之禪: 可讀性很重要

它也可以定義默認值：

@dataclass
class Number:
    val:int = 0

表示

對象表示指的是對象的一個有意義的字元串表示，它在調試時非常有用。

默認的 Python 對象表示不是很直觀：

class Number:
    def __init__(self, val = 0):
    self.val = val

>>> a = Number(1)
>>> a
>>> <__main__.Number object at 0x7ff395b2ccc0>

這讓我們無法知悉對象的作用，並且會導致糟糕的調試體驗。

一個有意義的表示可以通過在類中定義一個 __repr__ 方法來實現。

def __repr__(self):
    return self.val

現在我們得到這個對象有意義的表示：

>>> a = Number(1)
>>> a
>>> 1

dataclass 會自動添加一個 __repr__ 函數，這樣我們就不必手動實現它了。

@dataclass
class Number:
    val: int = 0

>>> a = Number(1)
>>> a
>>> Number(val = 1)

數據比較

通常，數據對象之間需要相互比較。

兩個對象 a 和 b 之間的比較通常包括以下操作：

a < b
a > b
a == b
a >= b
a <= b

在 Python 中，能夠在可以執行上述操作的類中定義方法。為了簡單起見，不讓這篇文章過於冗長，我將只展示 == 和 < 的實現。

通常這樣寫：

class Number:
    def __init__( self, val = 0):
       self.val = val

    def __eq__(self, other):
        return self.val == other.val

    def __lt__(self, other):
        return self.val < other.val

使用 dataclass：

@dataclass(order = True)
class Number:
    val: int = 0

是的，就是這樣簡單。

我們不需要定義 __eq__ 和 __lt__ 方法，因為當 order = True 被調用時，dataclass 裝飾器會自動將它們添加到我們的類定義中。

那麼，它是如何做到的呢？

當你使用 dataclass 時，它會在類定義中添加函數 __eq__ 和 __lt__ 。我們已經知道這點了。那麼，這些函數是怎樣知道如何檢查相等並進行比較呢？

生成 __eq__ 函數的 dataclass 類會比較兩個屬性構成的元組，一個由自己屬性構成的，另一個由同類的其他實例的屬性構成。在我們的例子中，自動生成的 __eq__ 函數相當於：

def __eq__(self, other):
    return (self.val,) == (other.val,)

讓我們來看一個更詳細的例子：

我們會編寫一個 dataclass 類 Person 來保存 name 和 age。

@dataclass(order = True)
class Person:
    name: str
    age:int = 0

自動生成的 __eq__ 方法等同於：

def __eq__(self, other):
    return (self.name, self.age) == ( other.name, other.age)

請注意屬性的順序。它們總是按照你在 dataclass 類中定義的順序生成。

同樣，等效的 __le__ 函數類似於：

def __le__(self, other):
    return (self.name, self.age) <= (other.name, other.age)

當你需要對數據對象列表進行排序時，通常會出現像 __le__ 這樣的函數的定義。Python 內置的 sorted 函數依賴於比較兩個對象。

>>> import random

>>> a = [Number(random.randint(1,10)) for _ in range(10)] #generate list of random numbers

>>> a

>>> [Number(val=2), Number(val=7), Number(val=6), Number(val=5), Number(val=10), Number(val=9), Number(val=1), Number(val=10), Number(val=1), Number(val=7)]

>>> sorted_a = sorted(a) #Sort Numbers in ascending order

>>> [Number(val=1), Number(val=1), Number(val=2), Number(val=5), Number(val=6), Number(val=7), Number(val=7), Number(val=9), Number(val=10), Number(val=10)]

>>> reverse_sorted_a = sorted(a, reverse = True) #Sort Numbers in descending order 

>>> reverse_sorted_a

>>> [Number(val=10), Number(val=10), Number(val=9), Number(val=7), Number(val=7), Number(val=6), Number(val=5), Number(val=2), Number(val=1), Number(val=1)]

`dataclass` 作為一個可調用的裝飾器

定義所有的 dunder（LCTT 譯註：這是指雙下劃線方法，即魔法方法）方法並不總是值得的。你的用例可能只包括存儲值和檢查相等性。因此，你只需定義 __init__ 和 __eq__ 方法。如果我們可以告訴裝飾器不生成其他方法，那麼它會減少一些開銷，並且我們將在數據對象上有正確的操作。

幸運的是，這可以通過將 dataclass 裝飾器作為可調用對象來實現。

從官方文檔來看，裝飾器可以用作具有如下參數的可調用對象：

@dataclass(init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False)
class C:
 …

init：默認將生成 __init__ 方法。如果傳入 False，那麼該類將不會有 __init__ 方法。
repr：__repr__ 方法默認生成。如果傳入 False，那麼該類將不會有 __repr__ 方法。
eq：默認將生成 __eq__ 方法。如果傳入 False，那麼 __eq__ 方法將不會被 dataclass 添加，但默認為 object.__eq__。
order：默認將生成 __gt__、__ge__、__lt__、__le__ 方法。如果傳入 False，則省略它們。

我們在接下來會討論 frozen。由於 unsafe_hash 參數複雜的用例，它值得單獨發布一篇文章。

現在回到我們的用例，以下是我們需要的：

__init__
1. __eq__

默認會生成這些函數，因此我們需要的是不生成其他函數。那麼我們該怎麼做呢？很簡單，只需將相關參數作為 false 傳入給生成器即可。

@dataclass(repr = False) # order, unsafe_hash and frozen are False
class Number:
    val: int = 0

>>> a = Number(1)

>>> a

>>> <__main__.Number object at 0x7ff395afe898>

>>> b = Number(2)

>>> c = Number(1)

>>> a == b

>>> False

>>> a < b

>>> Traceback (most recent call last):
 File 「<stdin>」, line 1, in <module>
TypeError: 『<』 not supported between instances of 『Number』 and 『Number』

Frozen（不可變）實例

Frozen 實例是在初始化對象後無法修改其屬性的對象。

無法創建真正不可變的 Python 對象

在 Python 中創建對象的不可變屬性是一項艱巨的任務，我將不會在本篇文章中深入探討。

以下是我們期望不可變對象能夠做到的：

>>> a = Number(10) #Assuming Number class is immutable

>>> a.val = 10 # Raises Error

有了 dataclass，就可以通過使用 dataclass 裝飾器作為可調用對象配合參數 frozen=True 來定義一個 frozen 對象。

當實例化一個 frozen 對象時，任何企圖修改對象屬性的行為都會引發 FrozenInstanceError。

@dataclass(frozen = True)
class Number:
    val: int = 0

>>> a = Number(1)

>>> a.val

>>> 1

>>> a.val = 2

>>> Traceback (most recent call last):
 File 「<stdin>」, line 1, in <module>
 File 「<string>」, line 3, in __setattr__
dataclasses.FrozenInstanceError: cannot assign to field 『val』

因此，一個 frozen 實例是一種很好方式來存儲：

常數
設置

這些通常不會在應用程序的生命周期內發生變化，任何企圖修改它們的行為都應該被禁止。

後期初始化處理

有了 dataclass，需要定義一個 __init__ 方法來將變數賦給 self 這種初始化操作已經得到了處理。但是我們失去了在變數被賦值之後立即需要的函數調用或處理的靈活性。

讓我們來討論一個用例，在這個用例中，我們定義一個 Float 類來包含浮點數，然後在初始化之後立即計算整數和小數部分。

通常是這樣：

import math

class Float:
    def __init__(self, val = 0):
        self.val = val
        self.process()

    def process(self):
        self.decimal, self.integer = math.modf(self.val)

>>> a = Float( 2.2)

>>> a.decimal

>>> 0.2000

>>> a.integer

>>> 2.0

幸運的是，使用 post_init 方法已經能夠處理後期初始化操作。

生成的 __init__ 方法在返回之前調用 __post_init__ 返回。因此，可以在函數中進行任何處理。

import math

@dataclass
class FloatNumber:
    val: float = 0.0

    def __post_init__(self):
        self.decimal, self.integer = math.modf(self.val)

>>> a = Number(2.2)

>>> a.val

>>> 2.2

>>> a.integer

>>> 2.0

>>> a.decimal

>>> 0.2

多麼方便！

繼承

Dataclasses 支持繼承，就像普通的 Python 類一樣。

因此，父類中定義的屬性將在子類中可用。

@dataclass
class Person:
    age: int = 0
    name: str

@dataclass
class Student(Person):
    grade: int

>>> s = Student(20, "John Doe", 12)

>>> s.age

>>> 20

>>> s.name

>>> "John Doe"

>>> s.grade

>>> 12

請注意，Student 的參數是在類中定義的欄位的順序。

繼承過程中 __post_init__ 的行為是怎樣的？

由於 __post_init__ 只是另一個函數，因此必須以傳統方式調用它：

@dataclass
class A:
    a: int

    def __post_init__(self):
        print("A")

@dataclass
class B(A):
    b: int

    def __post_init__(self):
        print("B")

>>> a = B(1,2)

>>> B

在上面的例子中，只有 B 的 __post_init__ 被調用，那麼我們如何調用 A 的 __post_init__ 呢？

因為它是父類的函數，所以可以用 super 來調用它。

@dataclass
class B(A):
    b: int

    def __post_init__(self):
        super().__post_init__() # 調用 A 的 post init
        print("B")

>>> a = B(1,2)

>>> A
    B