30
30
31
31
<!-- start-->
32
32
## 简介
33
- MindOCR是一个基于[ MindSpore] ( https://www.mindspore.cn/en ) 框架开发的OCR开源工具箱,集成系列主流文字检测识别的算法、模型,并提供易用的训练和推理工具,可以帮助用户快速开发和应用业界SoTA文本检测、文本识别模型,如DBNet/DBNet++和CRNN/SVTR,满足图像文档理解的需求。
33
+ MindOCR是一个基于[ MindSpore] ( https://www.mindspore.cn/ ) 框架开发的OCR开源工具箱,集成系列主流文字检测识别的算法、模型,并提供易用的训练和推理工具,可以帮助用户快速开发和应用业界SoTA文本检测、文本识别模型,如DBNet/DBNet++和CRNN/SVTR,满足图像文档理解的需求。
34
34
35
35
36
36
<details open markdown >
@@ -219,9 +219,9 @@ python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_img
219
219
220
220
# ## 3. 模型离线推理
221
221
222
- 你可以在MindOCR中对** MindOCR原生模型** 或 ** 第三方模型** (如PaddleOCR、MMOCR等)进行MindSpore Lite推理。详情请参考[模型离线推理教程](docs/zh/inference/inference_tutorial.md)。
222
+ 你可以在MindOCR中对 ** MindOCR原生模型** 或 ** 第三方模型** (如PaddleOCR、MMOCR等)进行MindSpore Lite推理。详情请参考[模型离线推理教程](docs/zh/inference/inference_tutorial.md)。
223
223
224
- # # 使用教程
224
+ # # <span id=" 使用教程">使用教程</span>
225
225
226
226
- 数据集
227
227
- [数据集准备](docs/zh/datasets/converters.md)
@@ -275,7 +275,7 @@ python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_img
275
275
<summary>关键信息抽取</summary>
276
276
277
277
- [x] [LayoutXLM](configs/kie/vi_layoutxlm/README_CN.md) (arXiv' 2021)
278
- - [x] [LayoutLMv3](configs/kie /layoutlmv3/README_CN.md) (arXiv' 2022)
278
+ - [x] [LayoutLMv3](configs/layout /layoutlmv3/README_CN.md) (arXiv' 2022)
279
279
280
280
</details>
281
281
@@ -294,7 +294,7 @@ python tools/infer/text/predict_system.py --image_dir {path_to_img or dir_to_img
294
294
</details>
295
295
296
296
297
- 关于以上模型的具体训练方法和结果,请参见[configs](https://github.com/mindspore-lab/mindocr/blob/main/ configs)下各模型子目录的readme文档。
297
+ 关于以上模型的具体训练方法和结果,请参见[configs](configs)下各模型子目录的readme文档。
298
298
299
299
[MindSpore Lite](https://www.mindspore.cn/lite)模型推理的支持列表,
300
300
请参见[MindOCR原生模型推理支持列表](docs/zh/inference/mindocr_models_list.md) 和 [第三方模型推理支持列表](docs/zh/inference/thirdparty_models_list.md)(如PaddleOCR)。
@@ -310,45 +310,45 @@ MindOCR提供了[数据格式转换工具](https://github.com/mindspore-lab/mind
310
310
- [Born-Digital Images](https://rrc.cvc.uab.es/?ch=1) [[download](docs/zh/datasets/borndigital.md)]
311
311
- [CASIA-10K](http://www.nlpr.ia.ac.cn/pal/CASIA10K.html) [[download](docs/zh/datasets/casia10k.md)]
312
312
- [CCPD](https://github.com/detectRecog/CCPD) [[download](docs/zh/datasets/ccpd.md)]
313
- - [Chinese Text Recognition Benchmark](https://github.com/FudanVI/benchmarking-chinese-text-recognition) [[paper](https://arxiv.org/abs/2112.15093)] [[download](docs/zh/datasets/chinese_text_recognition.md)]
313
+ - [Chinese Text Recognition Benchmark](https://github.com/FudanVI/benchmarking-chinese-text-recognition) [[paper](https://arxiv.org/abs/2112.15093)] \ [[download](docs/zh/datasets/chinese_text_recognition.md)]
314
314
- [COCO-Text](https://rrc.cvc.uab.es/?ch=5) [[download](docs/zh/datasets/cocotext.md)]
315
315
- [CTW](https://ctwdataset.github.io/) [[download](docs/zh/datasets/ctw.md)]
316
- - [ICDAR2015](https://rrc.cvc.uab.es/?ch=4) [[paper](https://rrc.cvc.uab.es/files/short_rrc_2015.pdf)] [[download](docs/zh/datasets/icdar2015.md)]
316
+ - [ICDAR2015](https://rrc.cvc.uab.es/?ch=4) [[paper](https://rrc.cvc.uab.es/files/short_rrc_2015.pdf)] \ [[download](docs/zh/datasets/icdar2015.md)]
317
317
- [ICDAR2019 ArT](https://rrc.cvc.uab.es/?ch=14) [[download](docs/zh/datasets/ic19_art.md)]
318
318
- [LSVT](https://rrc.cvc.uab.es/?ch=16) [[download](docs/zh/datasets/lsvt.md)]
319
- - [MLT2017](https://rrc.cvc.uab.es/?ch=8) [[paper](https://ieeexplore.ieee.org/abstract/document/8270168)] [[download](docs/zh/datasets/mlt2017.md)]
320
- - [MSRA-TD500](http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)) [[paper](https://ieeexplore.ieee.org/abstract/document/6247787)] [[download](docs/zh/datasets/td500.md)]
319
+ - [MLT2017](https://rrc.cvc.uab.es/?ch=8) [[paper](https://ieeexplore.ieee.org/abstract/document/8270168)] \ [[download](docs/zh/datasets/mlt2017.md)]
320
+ - [MSRA-TD500](http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_Database_(MSRA-TD500)) [[paper](https://ieeexplore.ieee.org/abstract/document/6247787)] \ [[download](docs/zh/datasets/td500.md)]
321
321
- [MTWI-2018](https://tianchi.aliyun.com/competition/entrance/231651/introduction) [[download](docs/zh/datasets/mtwi2018.md)]
322
322
- [RCTW-17](https://rctw.vlrlab.net/) [[download](docs/zh/datasets/rctw17.md)]
323
323
- [ReCTS](https://rrc.cvc.uab.es/?ch=12) [[download](docs/zh/datasets/rects.md)]
324
- - [SCUT-CTW1500](https://github.com/Yuliang-Liu/Curve-Text-Detector) [[paper](https://www.sciencedirect.com/science/article/pii/S0031320319300664)] [[download](docs/zh/datasets/ctw1500.md)]
324
+ - [SCUT-CTW1500](https://github.com/Yuliang-Liu/Curve-Text-Detector) [[paper](https://www.sciencedirect.com/science/article/pii/S0031320319300664)] \ [[download](docs/zh/datasets/ctw1500.md)]
325
325
- [SROIE](https://rrc.cvc.uab.es/?ch=13) [[download](docs/zh/datasets/sroie.md)]
326
326
- [SVT](http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset) [[download](docs/zh/datasets/svt.md)]
327
- - [SynText150k](https://github.com/aim-uofa/AdelaiDet) [[paper](https://arxiv.org/abs/2002.10200)] [[download](docs/zh/datasets/syntext150k.md)]
328
- - [SynthText](https://www.robots.ox.ac.uk/~vgg/data/scenetext/) [[paper](https://www.robots.ox.ac.uk/~vgg/publications/2016/Gupta16/)] [[download](docs/zh/datasets/synthtext.md)]
327
+ - [SynText150k](https://github.com/aim-uofa/AdelaiDet) [[paper](https://arxiv.org/abs/2002.10200)] \ [[download](docs/zh/datasets/syntext150k.md)]
328
+ - [SynthText](https://www.robots.ox.ac.uk/~vgg/data/scenetext/) [[paper](https://www.robots.ox.ac.uk/~vgg/publications/2016/Gupta16/)] \ [[download](docs/zh/datasets/synthtext.md)]
329
329
- [TextOCR](https://textvqa.org/textocr/) [[download](docs/zh/datasets/textocr.md)]
330
- - [Total-Text](https://github.com/cs-chan/Total-Text-Dataset/tree/master/Dataset) [[paper](https://arxiv.org/abs/1710.10400)] [[download](docs/zh/datasets/totaltext.md)]
330
+ - [Total-Text](https://github.com/cs-chan/Total-Text-Dataset/tree/master/Dataset) [[paper](https://arxiv.org/abs/1710.10400)] \ [[download](docs/zh/datasets/totaltext.md)]
331
331
332
332
</details>
333
333
334
334
<details close markdown>
335
335
<summary>版面分析数据集</summary>
336
336
337
- - [PublayNet](https://github.com/ibm-aur-nlp/PubLayNet) [[paper](https://arxiv.org/abs/1908.07836)] [[download](https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz)]
337
+ - [PublayNet](https://github.com/ibm-aur-nlp/PubLayNet) [[paper](https://arxiv.org/abs/1908.07836)] \ [[download](https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz)]
338
338
339
339
</details>
340
340
341
341
<details close markdown>
342
342
<summary>关键信息抽取数据集</summary>
343
343
344
- - [XFUND](https://github.com/doc-analysis/XFUND) [[paper](https://aclanthology.org/2022.findings-acl.253/)] [[download](https://github.com/doc-analysis/XFUND/releases/tag/v1.0)]
344
+ - [XFUND](https://github.com/doc-analysis/XFUND) [[paper](https://aclanthology.org/2022.findings-acl.253/)] \ [[download](https://github.com/doc-analysis/XFUND/releases/tag/v1.0)]
345
345
346
346
</details>
347
347
348
348
<details close markdown>
349
349
<summary>表格识别数据集</summary>
350
350
351
- - [PubTabNet](https://github.com/ibm-aur-nlp/PubTabNet) [[paper](https://arxiv.org/pdf/1911.10683.pdf)] [[download](https://dax-cdn.cdn.appdomain.cloud/dax-pubtabnet/2.0.0/pubtabnet.tar.gz)]
351
+ - [PubTabNet](https://github.com/ibm-aur-nlp/PubTabNet) [[paper](https://arxiv.org/pdf/1911.10683.pdf)] \ [[download](https://dax-cdn.cdn.appdomain.cloud/dax-pubtabnet/2.0.0/pubtabnet.tar.gz)]
352
352
353
353
</details>
354
354
@@ -365,7 +365,7 @@ MindOCR提供了[数据格式转换工具](https://github.com/mindspore-lab/mind
365
365
366
366
- 2023/04/01
367
367
1. 增加新模型
368
- - 关键信息抽取[LayoutLMv3](configs/kie /layoutlmv3/)
368
+ - 关键信息抽取[LayoutLMv3](configs/layout /layoutlmv3/)
369
369
370
370
- 2024/03/20
371
371
1. 增加新模型
0 commit comments