动手RAG: ocr调研

admin2024-07-07  3

对于rag应用来说,文档是第一步,对于部分扫描件的文件来讲,主要就需要OCR.
动手RAG: ocr调研,在这里插入图片描述,第1张
动手RAG: ocr调研,在这里插入图片描述,第2张

OCR

  • tesseract
  • ppocr
  • mmocr

还有诸如

  • chineseocr_lite
  • darknet-ocr
  • https://blog.csdn.net/CHYabc123456hh/article/details/107846268
  • easyocr

OCR包含几类,

  • 自然场景中的文字识别,文档中的文字识别
  • pipeline: 文本检测,文本识别,文档结构化识别(版面分析,表格识别,关键信息提取)

动手RAG: ocr调研,在这里插入图片描述,第3张
动手RAG: ocr调研,在这里插入图片描述,第4张
表格识别
动手RAG: ocr调研,在这里插入图片描述,第5张
部署
动手RAG: ocr调研,在这里插入图片描述,第6张

pdf解析

文档解析

参考

  • https://github.com/PaddleOCR-Community/Dive-into-OCR/blob/main/notebook_ch/1.introduction/OCR%E6%8A%80%E6%9C%AF%E5%AF%BC%E8%AE%BA.ipynb
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!