谷歌 AI 推出新的數組存儲開源庫
谷歌開發的開源 C++ 和 Python 框架 TensorStore 旨在加速大型多維數組的讀寫設計。覆蓋單一大型坐標系的多維數據集通常用於當代計算機科學和機器學習應用程序中。使用這些數據集具有挑戰性,因為客戶經常希望進行涉及多個工作站並行操作的調查,並且可能會以不可預測的間隔和不同的規模接收和輸出數據。
谷歌研究院開發了 TensorStore,該庫為用戶提供了一個可以管理巨大數據集的 API,而無需複雜的硬體,以解決數據存儲和操作問題。該庫支持許多存儲系統,包括本地和網路文件系統、谷歌雲存儲等。
為了載入和處理大量數據,TensorStore 提供了一個簡單的 Python API。任何任意大小的基礎數據集都可以載入和更新,而無需將數據集完整存儲在內存中,因為在需要精確切片之前不需要在內存中讀取或保存實際數據。
這是通過索引和操作語法實現的,它與 NumPy 操作的語法非常相似。除了虛擬視圖、廣播、對齊和其他複雜的索引功能,TensorStore 還支持如數據類型轉換、降低取樣和隨意創建的數組這些功能。
此外,TensorStore 包含一個非同步 API,可以並發進行讀取或寫入操作。在執行其他工作時,軟體可以進行內存緩存處理(可配置),從而減少在訪問常用數據時處理較慢存儲系統的需要。
大型數值數據集需要大量的處理能力來檢查和分析。實現這一點的常用方法是在分散在許多設備上的大量 CPU 或加速器內核之間並行化任務。在保持出色速度的同時並行分析單個數據集的能力一直是 TensorStore 的關鍵目標。 PaLM、腦圖和其他複雜的大規模機器學習模型是 TensorStore 應用案例的一些例子。
作者:Laveesh Kocher 選題:lkxed 譯者:KevinZonda 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive