Dimples's blog Dimples's blog
首页
  • 前端随笔

    • React
  • 系列文章

    • 《ES6 教程》笔记
    • 《Vue》笔记
    • 《TypeScript》笔记
  • 后端文章

    • Java
    • Python
    • 数据库
  • 学习笔记

    • 《Rust》笔记
    • 《SpringBoot》笔记
    • 《Django》笔记
    • 《Docker》笔记
    • 《Python爬虫》笔记
技术分享
友情链接
索引
关于
GitHub (opens new window)

DimplesY

不会写代码
首页
  • 前端随笔

    • React
  • 系列文章

    • 《ES6 教程》笔记
    • 《Vue》笔记
    • 《TypeScript》笔记
  • 后端文章

    • Java
    • Python
    • 数据库
  • 学习笔记

    • 《Rust》笔记
    • 《SpringBoot》笔记
    • 《Django》笔记
    • 《Docker》笔记
    • 《Python爬虫》笔记
技术分享
友情链接
索引
关于
GitHub (opens new window)
  • 爬虫介绍
  • 工具的使用
  • 爬取数据-urllib库
  • urllib库的高级用法
  • URLError与Cookie
  • Requests库的用法
  • 数据提取-正则表达式
  • 数据提取-Beautiful Soup
  • 数据提取-XPath
  • 数据提取-JsonPath
  • 数据提取-PyQuery
  • 爬虫之多线程
  • Selenium与PhantomJS
  • Selenium 处理滚动条
  • Python下Tesseract Ocr引擎及安装介绍
    • Scrapy 框架介绍与安装
    • 《Python爬虫》笔记
    DimplesY
    2022-04-17

    Python下Tesseract Ocr引擎及安装介绍

    # 1. Tesseract 介绍

    tesseract 是一个 google 支持的开源 ocr 项目

    其项目地址:https://github.com/tesseract-ocr/tesseract

    目前最新的源码可以在这里下载

    # 2. Tesseract 安装包下载

    Tesseract 的 release 版本下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Downloads,这里需要注意这一段话:

    Currently, there is no official Windows installer for newer versions

    意思就是官方不提供最新版 windows 平台安装包,只有相对略老的 3.02.02 版本,其下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/

    最新版 3.03 和 3.05 版本,都是三方维护和管理的安装包,有好几个发行机构,分别是:

    • https://www.dropbox.com/s/8t54mz39i58qslh/tesseract-3.05.00dev-win32-vc19.zip?dl=1
    • https://github.com/UB-Mannheim/tesseract/wiki
    • http://domasofan.spdns.eu/tesseract/

    # 3. 小结

    1. 官方发布的 3.02 版本下载地址

      http://downloads.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe?r=https%3A%2F%2Fsourceforge.net%2Fprojects%2Ftesseract-ocr-alt%2Ffiles%2F&ts=1464880498&use_mirror=jaist

    2. 德国曼海姆大学发行的 3.05 版本下载地址

      http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe

    3. imon Eigeldinger (@DomasoFan) 维护的另一个版本 > http://3.onj.me/tesseract/ 值得称道的是,这个网址里还有一个比较详细的说明

    # 4. Tesseract ocr 使用

    安装之后,默认目录 C:\Program Files (x86)\Tesseract-OCR,你需要把这个路径放到你操作系统的 path 搜索路径中,否则后面使用起来会不方便。

    在安装目录 C:\Program Files (x86)\Tesseract-OCR 下可以看到 tesseract.exe 这个命令行执行程序

    tesseract 1.png output-l eng -psm 7
    
    1

    -psm 7 表示用单行文本识别 pagesegmode 值:

    • 0 =定向和脚本检测(OSD)。
    • 1 =带 OSD 的自动页面分割。
    • 2 =自动页面分割,但没有 OSD 或 OCR
    • 3 =全自动页面分割,但没有 OSD。(默认)
    • 4 =假设一列可变大小的文本。
    • 5 =假设一个统一的垂直对齐文本块。
    • 6 =假设一个统一的文本块。
    • 7 =将图像作为单个文本行处理。
    • 8 =把图像当作一个单词。
    • 9 =把图像当作一个圆圈中的一个词来对待。
    • 10 =将图像作为单个字符处理

    #-l eng 代表使用英语识别

    帮助我修改此页面 (opens new window)
    #Python#爬虫
    上次更新: 2022/11/20, 18:28:09
    Selenium 处理滚动条
    Scrapy 框架介绍与安装

    ← Selenium 处理滚动条 Scrapy 框架介绍与安装→

    最近更新
    01
    使用 strapi 快速构建 API 和 CMS 管理系统
    03-03
    02
    Rust 开发环境
    11-26
    03
    使用 paka.dev 为 npm 包生成文档
    11-24
    更多文章>
    Theme by Vdoing | Copyright © 2020-2025 Dimples YJ | MIT License
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式