去年11月,众议院监督委员会发布了2万页杰弗里·爱泼斯坦的文件,卢克·伊格尔和朋友们试图从中梳理线索,但PDF查看器“糟糕透顶”。随后司法部又发布了超过300万页PDF文件。尽管司法部对文本进行了OCR处理,但效果不佳,文件几乎无法搜索。伊格尔萌生了一个想法:构建一个类似Gmail的界面来更直观地查看和搜索这些通信。
然而,从PDF中提取信息远比听起来复杂。尽管AI在构建复杂软件和解决高级物理问题方面取得了快速进展,但解析PDF仍是一个巨大挑战。数据公司Surge的CEO埃德温·陈将其列为AI“不性感的失败”之一。他发现,即便是最先进的模型,在要求从PDF中提取信息时,也会进行总结、混淆脚注与正文,甚至完全编造内容。研究员皮埃尔-卡尔·朗格莱在AI发展时间线中半开玩笑地将“PDF解析问题已解决”放在AGI之前。
看英文原文 →