銀行對帳單太亂?街口支付董事長開源工具,讓 PDF 變 AI 可讀 Markdown

ChainNewsAbmedia

街口支付董事長梅驊近日在 GitHub 開源一款名為 doc-cleaner 的文件處理工具。該專案主打將 PDF、DOCX、XLSX 與純文字檔轉換為乾淨的結構化 Markdown,特別針對繁體中文金融文件設計,並支援完全離線運行。梅驊在專案介紹中寫道:「你的文件,不該為了整理而離開你的電腦。」

梅驊在社群平台表示,自己長期被信用卡對帳單、保險文件與投資報告困擾。這些文件不僅常出現 Big5 或 CP950 等舊式編碼造成的亂碼問題,表格格式也經常在轉檔過程中被破壞,甚至還附帶大量法律聲明或金融廣告。為了解決這些問題,他決定自行開發工具並將其開源。doc-cleaner 的主要功能是將雜亂的文件轉換為乾淨、結構化的 Markdown,方便直接匯入筆記系統或 AI 工具

專案連結:

金融個資不外露!doc-cleaner 主打本地轉換資料

doc-cleaner 的核心功能是將多種常見文件格式轉換為 Markdown。工具支援 PDF、Word、Excel、CSV 以及 TXT 等文件類型,並特別強調對表格的保留能力。DOCX 與 Excel 文件中的表格會直接轉換為 Markdown 的 pipe table 格式,使欄位與數據結構仍能完整保留。

在處理 PDF 時,doc-cleaner 會先自動判斷文件類型,再決定處理方式。如果文件屬於原生文字 PDF,系統會直接抽取內容;若版面結構破碎或文件屬於掃描影像,則可透過 AI 進行視覺解析與重建。這種分流機制可以避免不必要的 AI 呼叫,讓大多數文件在本地即可快速完成處理。

工具同時提供多種運行模式。使用者可以選擇完全離線模式,只提取文字與表格,不需任何 API 或雲端服務;也可以透過本地 AI 模型(例如 Ollama)或雲端模型 Gemini 進行文件結構化整理。若使用本地模型,所有資料都會在使用者電腦上處理,不會離開本機。

專為台灣金融文件設計,可與 AI Agent 整合

doc-cleaner 也針對台灣金融文件進行優化。許多銀行或保險文件在 PDF 尾端常包含大量法律聲明與投資風險提示,例如「謹慎理財,信用至上」等固定段落。系統可以透過正則規則自動截斷這些內容,避免無關資訊影響文件整理結果。

在安全機制方面,doc-cleaner 採用原子寫入方式,透過臨時檔與 os.replace() 確保輸出文件不會出現半完成狀態。API 金鑰與密碼也只能存放在 .env 檔案中,不會被加入 Git 版本控制。此外,若截斷規則可能刪除過多內容,系統會自動跳過處理以避免誤刪重要資料。

由於 doc-cleaner 是標準的 CLI 工具,也可以與 AI agent 系統整合,例如 OpenClaw 等框架。AI agent 可以透過 shell 指令呼叫工具,將文件轉換為 Markdown,並輸出 JSON 摘要供自動化流程使用。

這篇文章 銀行對帳單太亂?街口支付董事長開源工具,讓 PDF 變 AI 可讀 Markdown 最早出現於 鏈新聞 ABMedia。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento