Textricator:讓數據提取變得簡單
你可能知道這種感覺:你請求得到數據並得到積極的響應,只打開電子郵件並發現一大堆附加的 PDF。數據——中斷。
我們理解你的挫敗感,並為此做了一些事情:讓我們介紹下 Textricator,這是我們的第一個開源產品。
我們是 「Measures for Justice」(MFJ),一個刑事司法研究和透明度組織。我們的使命是為整個司法系統從逮捕到定罪後提供數據透明度。我們通過制定一系列多達 32 項指標來實現這一目標,涵蓋每個縣的整個刑事司法系統。我們以多種方式獲取數據 —— 當然,所有這些都是合法的 —— 雖然許多州和縣機構都掌握數據,可以為我們提供 CSV 格式的高質量格式化數據,但這些數據通常捆綁在軟體中,沒有簡單的方法可以提取。PDF 報告是他們能提供的最佳報告。
開發者 Joe Hale 和 Stephen Byrne 在過去兩年中一直在開發 Textricator,它用來提取數萬頁數據供我們內部使用。Textricator 可以處理幾乎任何基於文本的 PDF 格式 —— 不僅僅是表格,還包括複雜的報表,其中包含從 Crystal Reports 等工具生成的文本和細節部分。只需告訴 Textricator 你要收集的欄位的屬性,它就會整理文檔,收集並寫出你的記錄。
不是軟體工程師?Textricator 不需要編程技巧。相反,用戶描述 PDF 的結構,Textricator 處理其餘部分。大多數用戶通過命令行運行它。但是,你可以使用基於瀏覽器的 GUI。
我們評估了其他很好的開源解決方案,如 Tabula,但它們無法處理我們需要抓取的一些 PDF 的結構。技術總監 Andrew Branch 說:「Textricator 既靈活又強大,縮短了我們花費大量時間處理大型數據集的時間。」
在 MFJ,我們致力於透明度和知識共享,其中包括向任何人提供我們的軟體,特別是那些試圖公開自由共享數據的人。Textricator 可以在 GitHub 上找到,並在 GNU Affero 通用公共許可證第 3 版下發布。
你可以在我們的免費在線數據門戶上查看我們的工作成果,包括通過 Textricator 處理的數據。Textricator 是我們流程的重要組成部分,我們希望民間技術機構和政府組織都可以使用這個新工具解鎖更多數據。
如果你使用 Textricator,請告訴我們它如何幫助你解決數據問題。想要改進嗎?提交一個拉取請求。
via: https://opensource.com/article/18/7/textricator
作者:Stephen Byrne 選題:lujun9972 譯者:geekpi 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive