马健张鸣的书有哪些为什么买不到

中央社会主义学院第47期民主党派干部培训班民革临时支部主委、民革贵州省委会委员、贵州省第三人民医院副院长 刘辉

中华民族是一个有着五千年历史的民族,在这悠长历史中,先贤们给我们留下众多文化瑰宝,而国学经典则是其中最优秀、最精华、最有价值的。无论是从《诗经》《楚辞》到唐诗宋词,还是从琴棋书画到礼乐射御,抑或从孔孟老庄到心学理学;无论是“曲水流觞”的雅,还是“月上柳梢头,人约黄昏后”的浪漫,抑或“大风起兮云飞扬,威加海内兮归故乡”的豪情,国学经典总能带给我们自得、感动与启迪。

党员的文化素质是一个党派重要的软实力。崇尚学习是中华民族的优良传统,民主党派成员应力争成为“最喜欢读书、最有条件读书、最能够把书读好”的群体。我们要加强组织领导,有效整合资源,形成品牌效应,让读书活动更加彰显特色、优势和作用。要让读书成为我们的生活方式和精神追求。多读书,读好书,真正做到贵恒、贵悟、贵行;有毅力、讲方法、重运用,让书籍作伴,与快乐同行。

此次中央社会主义学院第47期民主党派干部培训班民革临时支部参与开展“团结读书会”活动,以“品读《庄子》”为主题,通过阅读感受国学经典的魅力。

逍遥、齐物与文明的反思——《庄子》导读

邵磊,哲学博士,中央社会主义学院中华文化教研部中国传统文化教研室讲师。

庄子名周,宋国蒙县(今河南商丘)人,生卒年不可考。《史记》记载他“与梁惠王、齐宣王同时”(《老子韩非列传》),且辞楚威王之聘,那么,他大约生活在战国后期,公元前370年至公元前301年之间。庄子原本以做漆树林场的管理员(“漆园吏”)为生,大概耐不得官场拘束,后来索性到濮水边钓鱼,住贫民窟,织草鞋(“夫处穷闾厄巷,困窘织屦”)。尽管收入微薄,生计困顿到家里揭不开锅、要找人借粮(“贷粟”)的窘境,他依然不失其乐,过着一种自尊自足的达观生活。

庄周对六艺诸子无所不窥,喜欢同好友惠子辩论哲学问题,谈风犀利,言语机智;也喜欢写有哲学意味的寓言故事,上古人物、鸟兽虫鱼,汪洋恣肆,落笔成书。他在书里写过一只叫鹓鶵的鸟,说它“发于南海,而飞于北海;非梧桐不止,非练实不食,非醴泉不饮。”这凤鸟精灵,是庄子的自期,也是自况。他推崇“独与天地精神往来,而不敖倪于万物”的至人,恰似尼采笔下超逸绝尘的哲人,在高山之巅与冰雪之间自由自在地生活。

《庄子》最初五十二篇,佚失十九篇,现存三十三篇。西晋时,经郭象重订,分“内”(七篇)、“外”(十五篇)和“杂”(十一篇)三部分。由于三部分在文风、思想等方面存在较大差别,通常认为“内篇”是庄子的创作,“外篇”是其弟子的阐释,“杂篇”则是弟子后学的发挥。要讨论庄子的思想,当以内篇为准,间或参照外、杂篇的故事。

《庄子》是“寓言”之书。言在彼而意在此,叫寓言。全书十之八九是寓言。《史记》说:“十馀万言,大抵率寓言也。”庄子洞悉人情世故,知道直白地表达思想,就好像亲生父母为儿子做媒,无论夸奖多么符合事实,也不比外人的夸奖更能取信于人,所以他“藉外论之”,借河伯、海若、鸿蒙、山木、骷髅、走兽昆虫来演绎故事,通过叙事传达对生活的看法,实质是一种从俗的说话技巧。

《庄子》是“重言”之书。重读作轻重之重。自己说话分量轻,就借重古圣先哲的威信,来吐露自家心肠,避免无谓的口舌之争。庄子笔下,无论黄帝、老子、孔子这类历史人物,还是生造的“乌有先生”,谈道说法,互相辩论,人物形象全随他的意想而千变万化。

《庄子》是“卮言”之书。卮是古代酒器,不注酒就空仰着,注满酒就倾斜,没有一成不变的常态,如同说话没有定见。庄子主张无我,心中无一定之见,如中空的酒器。而卮言便是无心之言,不落是非之域,只是顺着大化流行,代为立论。自然让说,他就说,自然不让说,他就不说。这样的话,人们听完也不会计较。

“寓言”、“重言”和“卮言”是庄子常用的话术,也是理解《庄子》的关键。庄子身处乱世,天下人沉溺于污浊,不追求本真的存在,故庄重的话不能直说,而要绕着弯子讲。这是《庄子》通篇充斥谬悠、荒唐、恣纵之言的隐衷。诙谐之中寓有严肃,恣肆处却极谨慎。所谓荒唐之言、无端崖之辞,并不是野马无归,而是自有一番苦心的。

“逍遥”二字,陆德明《经典释文》说是“闲放不拘、恰适自得”的意思。逍遥可贵,缘于难求。对于人的一生,《庄子》有一段生动的描述:

一受其成形,不亡以待尽。与物相刃相靡,其行尽如驰而莫之能止,不亦悲乎!终身役役,而不见其成功;苶然疲役,而不知其所归,可不哀邪!人谓之不死,奚益?其形化,其心与之然,可不谓大哀乎?人之生也,固若是芒乎?其我独芒,而人亦有不芒者乎?

人自呱呱坠地,禀受人形,便交接事物,彼此相刃相靡。生命飞逝而莫之能止,终身劳苦,以至于形骸疲困,也不见其成功。在生命的末端,形体与心灵一起消失,与草木同腐,哀孰大于此?而且置身人间,无处不是责任义务,再遭遇忧患,如何“恰适自得”呢?

一般印象里,庄子推崇隐居山林。实际上,他说的是:“芒乎何之,忽乎何适?万物毕罗,莫足以归。”(《庄子·天下》)他不但不主张在自然山林寻找归宿,反而要“自埋于民”,隐迹人群之中。因为他清醒地认识到:

天下有大戒二,其一命也,其一义也。子之事亲,命也,不可解于心;臣之事君,义也,无适而非君,无所逃于天地之间。

“大戒”,即与生俱来、无可改变的桎梏或命运,就像子女心中的孝亲之情不时涌现一样,无论何时何地,人也面临来自政治世界的考验。归根到底,人是群类动物,无法彻底离群索居。既然“无所逃于天地之间”,岂另有一片山林供逃世者栖息?

儒家坦然接受这人世的基本情态,孝父忠君,独行其义。对此伦理精神和淑世情怀,庄子颇不以为然。在他看来,这是“不知天之所为与人之所为”。谋事在人,成事在天。政治世界的逻辑固然在于人的塑造,但人定难胜天。况且乱世的道路布满荆棘,福如羽毛一样轻,祸比大地还要重,与其临人以德,奢求上天眷顾,不如先安顿好自己的生命。对此,庄子的回应是“知其不可奈何而安之若命”。个人的遭际命运,如同自然界日夜、寒暑的变化,自身无法决定,但大可不必为命运的无可奈何而悲哀,而陷入宿命论。就像我们虽然无法改变日夜交替、四季运转的事实,却还是可以因应此事实来选择自己的生活方式和生活态度。人世间的僵硬桎梏,并未彻底封锁个人开掘生命世界与精神空间的道路。更何况,依赖外部条件的逍遥是“有待”的,就像列子要有风才能飞行;无论身处何地、所遇何物,都能“恰适自得”,才是真正的“无待”逍遥。“不忘其所始,不求其所终;受而喜之,忘而复之”,这是内在的精神逍遥。《逍遥游》描绘的“无何有之乡”“广莫之野”等都不是现实存在的地方,而是心灵超越世俗桎梏之后悠然自得的精神体验。

二、齐物:去中心的平等世界

齐物是达成逍遥无待的方法,指通过体悟万物一体的道理,超越万物的分别。齐物有两层内涵:一是齐万物,二是齐物我。

齐万物意味着万物平等,要反对人类中心主义。儒家强调人与物的界限。孟子说“人之异于禽兽者几希”,人与动物只有非常细微的差别,要保持人的尊严,做一个大写的人,而绝不可以接受人堕落为“禽兽”。儒家时刻注意修身,正是一种克服动物性的持久努力。庄子则不然。在他心目中,鸟兽虫鱼和人一样,都有喜怒哀乐,都有以自己的方式生活的权利,彼此没有高低贵贱之别。

齐万物要求人的世界观的转变,如实看待万物的自足性。比如说,面对共同的对象,猫的眼睛捕捉到的“图象”或“物性”,一定与人大不一样。猿猴在树上生活,人却不能;泥鳅离不开沼泽,人常在湿地就会生病。哪有什么整齐划一的生活模式呢?如果人类非要坚持自己心目中的物才是标准模式,那不过是把人类的主观倾向强加给其他事物罢了。庄子主张人类应放弃自己的傲慢与偏见,打破“人类中心”的桎梏,将人与物平等对待,尊重彼此独特的存在方式。这一思想蕴含的生态意识和伦理价值,至今仍有现实意义。

齐物我涉及主体的消解,要反对自我中心主义。《齐物论》开篇就讲“吾丧我”,要舍弃对“我”的执念,舍弃自己的成心。“成心”,就是个人的偏好或文明的倾向性。如上所言,物本来无所谓是非,人的偏好投射上去才形成了是非,产生了争论,甚至冲突。其实,眼界放长远就会发现,哪里有什么自我?“庄周梦蝶”的故事告诉我们,道是创生宇宙万物的“天下母”,我与物都是“道”的化身,根源都来自道。宇宙的实体时时变动着,一切物类都在宇宙这一有机体之中变来变去,永无止境。无论其为人、为马、为虫臂、为鼠肝,都是自然的分化,是“以不同形相禅”。既然所有物类都属于宇宙有机体流转的一个环节或部分,自我的执着和主客二元对待的眼光便显得可笑。庄子说:“非彼无我,非我无所取。”没有它就没有我,没有我,也就没有什么东西来体现它。这样,为人固不足为乐,为鼠也不足为悲。寿夭、祸福、是非、得失,皆听凭自然的节奏,一任大化之范畴而已。而这正是庄子所追求的逍遥于天地之间的自由状态。

儒道互补是中华文明的重要特点。有一种观点认为,孔子是夏商周三代文明的总结者、继承者,老子则是三代文明的反思者、批判者。在孔子心中,周公创制的礼乐是人类文明的理想形式,面对礼坏乐崩的时世,他倡导士君子以身作则,保守传统文明的价值规范,纠正时代的政治与社会失序。老子则认为“大道废,有仁义”,文明的诞生本身便是遮蔽生活本源的结果,带有难以克服的痼疾。儒家重建秩序的方式,无异于以火救火,以水济水,非但无益,又助长之。与其凭靠仁义礼乐来校正社会历史的发展,不如顺应自然大化的流行,提倡清静无为的政治。

司马迁说庄子之学“其本归于老子”,继承了老子文明反思的立场。不过,在内七篇的各种对话场景里,最突出的人物形象不是老子,而是孔子。庄子自觉地与孔子展开穿越时空的思想对话,并且相较于老子的政治性反思,他进一步将个体生命价值凸显出来。

人是儒家思想的主题。人的生活总是类的生活,故儒家重群类生活,社会历史意识强烈。孔子曾带着极强的悲剧意识说出“鸟兽不可与同群,吾非斯人之徒与而谁与”的名言,然而个体的差异性巨大,恰似鸟兽虫鱼的生存方式有别。类的普遍标准如何适合每一个具体的人?就像快乐没有一致的标准,读书人无法欣赏“俗之所为,与其所乐”,而或许他们的赏心乐事又是“俗之所大苦也”。换个角度看,一部为儒家圣王传统所标榜的文明史,实则是一部个体本真生命不断被扭曲的历史。文明生活带来的社会建制,不仅帮助人实现对物的控制利用,也产生出对人自身的压制。甚至不同文明关于是非对错的绝对标准,会导向文明的冲突与精神自由空间的收缩。

“人之生不能无群”,我们当然不能设想完全孤立的个人生活,庄子只想证明不存在统一的道德原则或文明的绝对标准。这样说,或许会被人批评为相对主义。对此,庄子会答复说,万物各有不同,却在自然之道的层面相通为一。“天地与我并生,而万物与我为一”,世界从来不是身外之物,而是和身体血脉贯通的存在。在此意义上,人人可以独立地生活,每个人都在独自面对天地。儒家式的相濡以沫显示群体的温情,而道家所主张的个体自由独立的诉求亦是人性之自然。

中央社会主义学院第47期民主党派干部培训班民革临时支部开展团结读书会活动

中央社会主义学院第47期民主党派干部培训班民革临时支部是在民革中央的关心和指导下,于2022年9月1日成立,其使命周期与培训周期相同,即9月1日开学至11月4日培训班结束。

支部成员由参加培训的6位民革党员组成,来自6个不同省份,其中各级政协委员4人。支部在培训期间充分发挥民革基层组织作用,认真执行基层组织任务,开展好各项组织活动。

支部党员、 民革中央联络部三处处长、一级调研员 杨海燕

庄子是中国历史上一位隐士型思想家,道家学派的代表人物,还是一位追求美的生活、美的享受和美的人格的哲人。他推崇自然之美、朴素之美和精神之美,自然天成、自由天放、和谐并生的审美理想是他毕生的追求。

在庄子的美学思想中,对自然之美的感悟深刻。《庄子》一书中多次对日月星辰、飞禽走兽、雷电风雨等自然美景进行细致描摹,赞叹“天地有大美而不言”,认为保持自身天然本性的事物就是美的。这一思想也直接孕育了中国的山水诗、田园诗、游记等文学的萌芽和发展,中国的绘画和书法也深受其“大美”的美学情调和浪漫主义风格影响。

朴素是庄子极力推崇的一种美。“静而圣,动而王,无为也而尊,朴素而天下莫能与之争美。”庄子认为虚静恬淡、朴素无为的精神状态才能体验到美。“澹然无极而众美从之”,这种淡然朴素的美,甚至远远超越其他形式的美。

精神之美是庄子认为超越形体之外的最高层次的美。《庄子》一书中描写了不少身体残缺、畸形、外貌丑陋的人,他们并未因此受到歧视,相反因“德有所长而形有所忘”,而在当时的社会受到人们的喜爱和尊敬。

支部党员、民革江西景德镇市委会副主委 江志瑜

庄子作为道家的代表人物,其亦癫亦真的状态,蕴含着中国人朴素的生活哲学和处世态度。《庄子》一书中通过荒唐怪异的故事,说山野、说庙堂、说自然,将自然的绝妙与生命的大道融会贯通。从中我们可一窥庄子的心境,那便是遵从自然、遵从生命、遵从内心的超脱,物我相容又物我两忘的境界。庄子不仅是哲学家,还是一位浪漫主义散文家。他的文章具有强烈的浪漫主义气息,想象丰富异常、浑然天成,这和庄子淡泊的心态以及合乎自然的思想有着很大的关系。

作为一名党派干部,要在习近平新时代中国特色社会主义思想引领下,既要敢为人先,又要甘于清贫,工作上兢兢业业“入世”,名利上洒洒脱脱“出世”,担当实干、砥砺奋进,不辜负韶华、不辜负使命、不辜负时代。

支部党员、民革重庆永川区委会副主委 马小林

《庄子》内七篇为全书的精华所在,主要阐明了其所解之道和对世间万事万物运行规则的深深体会,包含了处事、待物、治世、生死等多方面。

在对待名利上,庄子先借用“五石之瓠”来讥讽人们不珍惜当下的贪欲心态,再借许由、哀骀它辞天下之举,表达“予无所用天下为”的态度。在看待事物上,庄子重其神,轻其表,强调做人做事从心出发,重视品德、精神等内在实质。在国家治理上,庄子认为“顺物自然而无容私焉,而天下治矣”,不能违背事物本性来达到管理目的。如有未能很好治理的,那也应该是“辩也者,有不见也”,而未深析其发展规律罢了。

支部党员、民革浙江台州市委会副主委 马健

“古之人其知有所至矣,恶乎至?有以为未始有物者,至矣,尽矣,不可以加矣。”(《庄子·齐物论》)庄子认为古时悟道者的智慧已经达到了最高的境界——他们认为整个宇宙从一开始就不存在什么具体的事物。大爆炸理论认为,宇宙起源于一个单独的无维度的点,即一个在空间和时间上都无尺度但却包含了宇宙全部物质的奇点。“有以为未始有物者”与宇宙起源于奇点的假说相吻合,体现了在那个年代古人对宇宙和事物认识的深刻程度。

庄子还举例说:昭文善于弹琴,师旷精于乐律,惠施乐于靠着梧桐树高谈阔论,这三位先生的才能和学识已经有很高的造诣了,他们的事迹也广为流传,这样就可以算是成功吗?庄子认为,各种迷惑人心的说辞炫耀,都是圣人所鄙夷、摒弃的。我们不应该执着于成功与否,而是要用平等宽容的心去看待世间万物。对于我们普通人来说,要学习前人智慧以开阔视野,找到适合自己的状态,以积极乐观的生活态度,任凭风起云涌,始终平静幸福。

支部党员、民革山东枣庄市委会副主委 李允

《庄子》围绕“知”而展开,以求“知”为取向,诠释了“知”的哲理实质、深刻内涵和丰富价值。

真知可以明心志。“天地与我并生,而万物与我为一”,揭示真知的内容并以“吹万者”比喻“知”的根源,明晰了真知的真正含义;“物无非彼,物无非是”表述了运用“知”的方法,教人以辩证的思维方式观照万物。善知能够养人生。《庄子》用庖丁解牛的生动故事,指出人应始终保持对“知”的敬畏心,并明确提出持守中道的处世之“知”,从而指出真正掌握“知”并善于用“知”来指导实践,便能够充分实现“可以保身,可以全生,可以养亲,可以尽年”。行知足以安价值。《庄子》从对万事万物唯一根源的“知”阐释出“道”的恒常,用清晰的逻辑推理解决了行与知这对亘古难题,以明晰的层次结构铺陈了“知”、“道”和“行”之间的价值关系,进而推演出践行真知足以安顿价值的“安时处顺”之理和实现价值安顿的“因是以明”之径。

破案1101起查缴财物6.9亿元!江苏打击整治养老诈骗专项行动战果显著

破案1101起查缴财物6.9亿元!江苏打击整治养老诈骗专项行动战果显著

籍扫描成高清pdf的方法:

手机 和。一块玻璃就行 。玻璃压着纸面拍摄,完全无视纸面的扭曲,,,和平板扫描仪相同的平整度哈。。。翻页速度却秒杀平板扫描。。。

先扫描单页再扫描双页,最后合并一下。 拍摄速度快到停不下来。。。

手机用蓝牙遥控器,这样可以专心翻页。 拍摄速度快到飞。。。

手机不要用广角端,用长焦端镜头畸变小。数码变焦不算。

外加一个鞋盒子(或纸箱子)(如要求高可制作金属v型架)。。。 能实现超快速大概就是你能翻页多块就能拍多块。

截至目前(2021.7月)教程字数一万三千,我更新了一年多,还会一直更新,因为各家的技术每年都在进步,从我的ocr系统,到马健老师的cep系统。

特别是wmjordan老师的pdf补丁丁,已经更新了十年了。。还在持续更新。。

还有扫描的硬件方案,一年来都有重大更新,估计不到五万字停不下来哈哈。。

  1. 实现批量优化扫描出来的图片。
  2. 实现批量优化他人制作的不清晰的扫描PDF
  3. 把网上下载的不清晰的pdf识别成清晰的文字版pdf或者txt(自制ocr软件下载见附件5)

0、扫描套装DIY示意图:

5、鞋盒子 玻璃 外观 方案硬件更新等

-----5.6 2.0升级版灯光(选配,可以不用)

-----5.7灯光升级方案2(选配,较为推荐,但也可以不用)

6、遇到的问题:镜面反光

-----6.1 方案二 双偏振镜解决反光

-----7、1黑白模式,放大 ,高斯模糊放大:

-----7、2启用抖动算法:

8、comicenhancer pro4设置参数的保存和复用以及批量执行最终优化(有视频教程)

10、pdf补丁丁的使用

-----2、奇偶页图片合并

13、Pdf导出图片 Pdf补丁丁(有视频教程)

17、关于奇偶页改名方法(最终)(有视频教程)

-----18.3 印影版扫描书籍和影印版ocr处理后的画质对比

19、关于馈纸式扫描仪

20、关于书籍扫描技术路线的汇总

21、关于私人图书馆建设

附3:真实制作案例:百度网盘分享真实制作成果pdf。

附4:所有用到的工具的下载:

附件5:自制ocr软件的教程和下载地址

附件6:ReNamer Lite 奇偶页文件改名工具下载地址

附件8:pdf和ocr辅助工具四件套 下载地址


0、扫描套装DIY示意图:

scan-tailor处理后,最终效果非常好,印刷级,秒杀所有后期软件。详细用法自己体会学习。


(还有一个效果一样好:comicenhancerpro4 现在我日常用这个较多,速度比st快很多,2021年最新版是5.05,增加了非常多的新功能,在这里给软件作者马老师点个赞!)

Pdf扫描版转图片(无损):pdf补丁丁

pdf目录书签半自动制作:pdf补丁丁


Pdf书签目录导入导出:pdf补丁丁

扫描版pdf无损导出成图片:pdf补丁丁

Pdf分割,合并:pdf补丁丁 。 只有这个软件能够合并分割完毕后还能保留原有的书签目录。其他软件都会丢失。


结论:我的方案速度秒杀一切平板扫描仪,传统高拍仪;扫描质量还是印刷级。


重大更新:黑白后期方法增加抖动算法,扫描效果比原先好了一个级别。! 详情见本文的comicenhancerpro4部分的具体更新的内容。

另 评论区有位朋友前期拍摄中好像用的无损灰度扫描,臊出来效果超级好,这提醒了我要实现拍摄的无损化,最好利用手机的raw图片或者dng图片格式无损拍摄。jpg损耗较大。


有没有秒杀的效果。。。 完全是数字化文字的边缘

经过反复测试 comicenhancerpro4也能达到这个效果,自由度更大,,速度更快。。。。 大家选择合适自己的来用。纯文本两个软件都好用,图文混排我推荐comic ,下文会讲原因。


注意:经过实践,这种效果没法进一步优化,因为拍出了大量阴影。解决方法请继续看下文。。

5、鞋盒子 玻璃 外观

思考和更新: 这套方案对于页数超过300 400页的书籍,拍出来可能会导致页面切边麻烦,因为翻页后拍照平面变了,文字会逐渐变大或者变小。

正好手头有一个微距摄影的微动平台,准备手机或者书籍加到这个平台上,这样整体实现翻页厚度补偿,使得拍照平面到传感器的焦距稳定在一定公差范围内(几个毫米)

可以补偿16cm 足够用

比如一本250页的书也就15mm 厚度。 换算一下 , 每12页调一下微动按钮就行,也就是1mm .整本书也就调10次搞定。500页的书调20次左右。

我买的便宜微动云台,模糊控制吧。。有米的买步进云台,精确一次一mm

今天同时制作的一个升级版不锈钢鞋盒 哈哈再也不用纸鞋盒了!

经过一年,我目前正在升级自己的扫描仪套件,手机升级为相机,增加电脑控制相机拍摄,增加脚踏板拍摄,升级鞋盒子为不锈钢书架。等等。。

作为一般用户 可以继续用手机,鞋盒子。,如果感觉手机画质不满足自己要求,鞋盒子不稳当,可以看完这个第五章内容,否则跳过。

如果是纯懒人并且不排斥拆书,(我大多数情况下也是懒人)建议看我下文的买个富士通6135zla扫描仪拆书扫描,喝着茶就能完成书籍制作。(需要拆书)

2.0版方案设备清单:

微动云台 大于30mm行程

神牛ct-16通用型引闪器

两个led光源辅助对焦

5.2 2.0升级版之相机选择和设置

家里正好有一台吃灰十几年的佳能450D相机,所以把他替代了手机作为扫描仪使用。

这台相机为apsc画幅,比苹果手机传感器大得多的多。。。

测试了一张照片(原始jpg,未后期处理),效果非常不错,比iphone6sp画质好的多!扎实的画质!

镜头我选用的佳能小痰盂 50mm f1.8 这个放在450D 正好实现了75mm等效焦距,不会出现手机端那种广角镜头的桶形畸变。

增加一个微动云台 进行翻页的补偿焦距

这个样子,黑鼠标垫(背景幕布)还没到货,其余全部调试完成了!

相机接上快门线,接上引闪器。

灯光目前两套方案,一个是沿用初始版本灯光方案,还有一个是双偏振镜方案,都详见后文。

相机的设置在电脑端进行,详见5.3教程。

买一根mini usb线就能链接电脑了!

又买了一个usb踏板,连接电脑,实现脚操控快门!

5.3 电脑端操控相机之 EOS utility软件 设置,操作。(实测发现这个方法无法解决450d的自动对焦问题,最后改用了快门线方案)

这时候相机打开,usb线保持链接电脑

电脑识别出了我们的相机 kiss x2(450D)

点击第三项,“相机设定,遥控拍摄”

这时候可以看到设置界面了:

可以操作和设置相机,拍照。

0 相机设置为m挡 镜头设置为m挡 打开灯光

图框1 设置快门时间,根据左侧的实时观察窗口查看亮度来进行相应的快门时间设置,设置快门速度,

点击“实时显示拍摄” 就能观察到亮度和对焦情况

图框2 设置光圈为f11 -f5.6 千万别用大光圈,大光圈非中央区域会模糊虚化。

图框3 设置白平衡 荧光灯

图框4 iso设置为400-500 画质兼顾速度 有强光源直接可撸100

图框5 图像大小设置为L 最大。

图框6 重新设置1 调整曝光时间。 80分之一秒-500分之一秒 (我的桌子不稳,所以提高快门速度 如果你在石头墩子上扫描 可以设置8分之一秒也行) 闪光灯可以万年200分之一秒,,

我目前的参数:f5.0光圈 二百分之一秒快门 iso400

我的桌子和灯太烂了 你们可以上好灯然后f5.6-f11

7 点击图框6处 这个圆形按钮就是拍照键,我们可以测试一张,不合适再微调各个参数。

查看一下,如果合适,我们就能进行后续调整了。

不合适和别的页重拍就行。

5.4 超白玻璃升级改造

上图我们会发现,左侧有一部分左侧页面我们不想要,所以需要升级超白玻璃。

超白玻璃左侧增加一块硬纸板,处置贴到超白玻璃左侧边缘。

这样,就可以遮挡住左侧不需要的页面和文字。

最后,硬纸板贴一块黑色软布,就摸出黑色背景效果。

最近找朋友做了一个不锈钢v型架子,这下再也不用那个软绵绵的鞋盒子了哈哈!

家里装修剩下两块a4大小的木板,正好作为底板贴到了架子上,形成了v型台面。

最后,v型台面贴上黑色幕布,完成北京黑色化。

这样,除了书籍正文,其他部位都是黑色的背景了,后期处理方便了很多!

用瓦楞纸板裁切成大约280mm*420mm的纸版,两片。

把纯黑色布面鼠标垫裁切相同的尺寸,两篇。

用手工胶水把鼠标垫粘到瓦楞纸上。

放到v型书架的两个面板上,热熔胶粘几个点固定住即可。

这时候拍书,背景都是一片漆黑,方便cep的后期裁切。

目前用的小黑垫子 将来会扩大一倍

使用一点摄影黑幕布,粘到超白玻璃书籍中缝这一边。

这样,拍奇数页的时候,黑布会遮挡住偶数页,拍偶数页的时候,黑布会遮挡奇数页,完美解决裁切问题!

5.6 灯光升级(选配,可以不用)

详见6.1的双偏振镜方案。

5.7灯光升级方案2(选配,较为推荐,但也可以不用)

同旧方案一样的角度,挂在书的上方,但是撤掉了led灯,换成了sp660ii闪光灯,使用无限引闪器进行同步曝光。

首先架设好灯架子,这里使用了两个。然后把闪光灯装好电池,平躺在两根架子上,灯朝向书面方向。

用绳子轻轻地把闪光灯固定在两根架子上。

相机热靴处插入引闪器发射端,调整1,2号频道开关到下方。闪光灯尾部热靴接口插入引闪器接收端,调整1,2号频道开关到下方(同发射端同步),打开闪光灯,引闪器两端的开关。

相机依然设置为手动模式m档,镜头设置为自动对焦档。这里注意的是,eos utility软件好像不能触发闪光灯,所以我们使用脱机模式,拔掉连接电脑的数据线,接上450D相机的快门线。

闪光灯设置为32分之一的光照亮度,焦距设置为24mm,因为闪光灯就在书页上方很近,不需要长焦,太过于聚集。闪光灯模式设置为m档。

花了十几元买了一条,拿来插上就能用,很方便!

使用cannon utility软件时无法使用快门和快门线,只能二选一。最终用了这个方案。因为对焦方便。翻一页,半按快门对焦,然后按下去拍射。 很方便。

观察画面:通常我拍一两张测试页,然后回放一下,进行微调即可。

5.9 450D相机使用参数(还在不断优化中):

镜头自动对焦(快门线半按),

相机文件精度选择L(也就是jpg最佳最大画质,不要选L+RAW 这里扫描书籍不需要RAW,只有在扫描画册时候,选择RAW),

镜头50mm佳能小痰盂,

用的闪光灯高挂方案时候:

闪光灯强度十六分之一,

其他灯全部关闭,只开一个3w的小灯辅助相机完成对焦。

使用光学取景器调整好画面中书页的位置,我们就可以试拍了!拍摄的时候,轻按快门线快门按钮,滴的一声,对角完毕,然后全部按下,完成拍摄,照片储存在存储卡上。

连接电脑,手动上传照片到电脑,然后开始后期处理。。

6、遇到的问题:镜面反光

是的我也遇到这个问题了 我想了一些对策

更新:基本解决我的8mm超白玻璃镜面反光问题

1 增加灯光亮度 我原先一盏灯,现在外挂两盏灯 一共三盏灯 解决局部阴影

2 抬高灯光高度 原先是侧光 很近 这样阴影太多,直射无阴影但是有反光,综合一下,抬高光源高度,我这个纸面中心和灯光中心距离大概42cm垂直高度 太高太低太偏太正都不理想。

原理大概就是使用面光源好于局部光源。

光源太高会出现一种新的反光,

光源太低纸面有大面积阴影,

光源太正灯光的反光会跑到纸面,

光源太偏纸面会有更多阴影。

最终调试大概是这种角度:

这个是原始的手机拍摄效果,灯光改善以后效果非常好,纸面部分的反光和阴影都不存在了。

遇到的问题2:梯形失真

更换手机的长焦镜头解决。默认28mm镜头除了不平行的梯形失真还有镜头本身的桶形失真。 更换50mm等效长焦 或75mm镜头 搞定!

6.1 解决反光 双偏振镜()

经过一年多寻找,忽然今天在保富图b站官网找到了解决反光的方案。双偏振镜方案。

光源套上偏振镜,同时相机套上偏振镜,简直完美!

原理就是, 1 .把光源也转化为偏振光源。

2.偏振光经过物体后,首先反射回来的是偏振光,之后是漫反射光。偏振光被第二偏振镜阻挡在外边。

单偏振镜和双偏振镜方案最终效对比果如下:(差别太明显了!)

摄影灯架(旧方案的灯架升级用 非偏振镜方案用):

我选用的2米高的可伸缩灯架,随意调节高度,直到没有反光为止。

很多朋友反映scantailor太慢了,确实慢,所以这个备用的软件已经上升到主力软件了。。因为很快,快很多。。。而且能够切边,纠正倾斜,获得黑白tif,加粗,锐化,曲线,高斯模糊,等等。。。。。。

首先把扫描好的照片放到一个目录,

用comicenhancerpro4打开目录下的随机的一张照片,进行预调整:

调整缩放160% ,色彩设为黑白 ,高斯模糊0-1.4看情况毛边多就设置大一些,曲线中部往下拉一拉,gamma略微调大,,然后保存这个黑白的预设,以后可以重复调用。

勾选红线部位左侧,自动纠正倾斜,半自动切边。

右侧分为两个情况,红线为手选,然后绿色框自动在红线范围自动捕捉内容切割。实现了半自动化精准切边。

初学者这时候可以测试一下 ,软件左上角那一排快捷按钮第三个按钮就是批处理功能。

打开后设置输出格式为tif. dpi.设置dpi为600,设置输出目录为自定义一个目录名。

预调整功能是调一张就够,批处理是按照这个预调整参数处理整个目录所有照片。


重大更新:图像后期方法更新,画质比以前好了一个等级~!

更新动机:前一阵学习python,偶然间发现一本电子书《Python爬虫开发与项目实战》竟然比我用的后期处理方法的画质好了一个级别,一直感觉这方法对我就是个迷,怎么会有这种神画质!

这。。。这。。。这么干净的极致画质怎么实现的???心里曾经一万个问号!~!

经过酝酿好久,,今天终于研究通了!!原来comicenhancerpro4 中,已经预制了这种功能!!

他就是:黑白模式+抖动算法+usm锐化+高斯模糊+放大! 抖动和usm锐化是重点更新的内容

7、1 黑白模式,放大 ,高斯模糊放大:参照本教程上边的方法有讲述。

7、2 启用抖动算法:

什么是抖动算法?简单讲就是通过很小的点把复杂的jpg像素转化成相对简单的一种排列方式,节省存储空间,同时大大提高了锐度!这个算法还能图文混排, 图片不再让人反胃。 类似于素描+针式打印机的效果。我差点和她失之交臂!这个才是我的真爱!!

Comic官方文档关于抖动算法的解释:纯黑白图像的抖动,就是用不同密度的黑点来模拟不同的灰度。可以选择不同的抖动算法,实在不知道该选哪个就都试试: JJN:经典Floyd Stainberg算法的改进。相对于经典Floyd Stainberg算法,JJN算法更突出边界,因此对比度保持较好,而且不容易出现规则条纹。

参数面板中打开‘其他‘ 选项卡,选择‘彩色’按钮。

‘彩色设置’选项卡打开后,勾选‘抖动’

什么是usm锐化?简单说就是ps中优化图像中局部中的边缘清晰度的算法。我认为是ps中仅次于曲线的又一个神功能!我们的cmic软件竟然也有!我之前没注意哈。。差点错过真爱!!。。

Comic官方文档对usm锐化的解释:USM锐化 与Photoshop中的同名功能类似。与前面“锐化”、“调节”的区别是:锐化、调节对图像的每个像素都是公平的,逐个像素用3×3或5×5做卷积,因此在使文字、线条边缘更锐的同时,其他地方也可能会锐得出现麻点。而USM锐化一般只对文字、线条边缘有影响,对图像其他地方基本没有影响,因此现在的Photoshop教程中逐渐建议用USM锐化代替常规锐化。

设置usm锐化参数如图 ,你们实际设置中酌情设置。我这里是个参考值

来一组处理前后的直观对比:画质比单纯黑白模式又提升一个等级!!

按照一个网友的评价就是:画面干净整洁!实现了高级灰!

如果你是极客或者画质强迫症,不考虑文件大小,还有一招,就是 缩放

70%缩放 图文混合一页纸大概10-80k 一本书大概10m 画质为最普通

100%缩放 一页纸120k左右 一本书10-30MB 画质普通 普通人用这个足够了 或者120%也行

极客 强迫症请把缩放打到130-200% 画质666 就是文件体积大了一些

原始版面左右 就设置120-160%放大

原始版面左右 就设置170%放大 (日常使用)

原始版面小于 就设置190-200%放大

高斯锐化加一点点,饱和度加一点点。这俩就在高斯模糊那个界面。版comic版本是4.19

gamma可以多家加一点

对比度 亮度 加一点点就够。

图片的后期画质优化方法,可以告一段落了。

最近用了最新版的cep,作者马健老师真是强,单独开发了书籍制作界面,各种新特性,做书更方便了.

特性1.增加了单独的书籍制作界面,操作更集中,方便

特性2.增加了梯形校正功能。拍斜的书籍也能矫正回来!

特性3.曲面展平功能,不压玻璃板都有机会拍出不错的效果。

特性4 增加黑白文字功能,一键转黑白文字版

由于马老师自带详细教程,我就直接附件7上传了详细教程,这里暂时不细说。

未来可能上一个视频教程在这里。

7.7 漂白背景发灰发黄的pdf

网上下载的pdf和我们自己制作的pdf,有时候背景没处理过,发灰,发黄,可以这样进行漂白处理

第一步: pdf补丁丁把下载好的pdf扫描文件中每页图片解压出来。使用“提取图片”界面。

第二步:cep中使用我附件中的预设[wolf算法 纯文字],把书籍转化成纯黑白,这时候就漂白了。黑的地方更黑,白的地方更白。(针对纯文字的扫描pdf)

图文混排漂白的话,有点困难,需要画质上边做取舍。。目前最好的方案是:使用我的附件中的第五或者第六预设(带有ocr字样),进行轻度锐化加亮,然后使用pdfelement进行ocr。出来以后就是纯白界面背景。但是此方法必须要求扫描质量非常高,至少400dpi的分辨率质量。

纯图片就不需要漂白了,可以用cep进行gamma值,对比度,明暗等的极轻度加工。。

第三步:pdf补丁丁把漂白好的图片重新合并成pdf。完毕。

第四步:书签移植:源pdf有书签的话,用pdf补丁丁导出源pdf的书签文件xml格式,再把书签文件导入书签到漂白pdf中。

cep4 和cep5的漂白背景方法汇总:

方法1 通道---通道混合---灰度

方法2 通道---通道混合---乌贼漂白

方法3 扫描书籍处理---色阶---白色吸管---发黄发蓝的背景处单击一次---力度不够再附近单击一两次背景

方法4 扫描书籍处理---色阶---自动漂白1(2,3,4)

方法5 扫描书籍处理---黑白文字



8、设置的保存和复用:

修改一次就可以保存设置,并且无限次调用。

复用别人设定好的参数:

把我附录2中的四个参数全部拷贝进来,或者拷贝其中的任意若干个。

参数名用方括号括起来。

更简单一点 ,附录4有我制作好的comicenhancerpro软件包,直接用那个就行。

cep调入我预设的参数视频教程:

重复的使用设置:点 调入- 选择一个配置-确定 然后进行图片的处理。

批量处理目标图片:调入一个设置--主界面上边工具栏中点击左上角第三个图表--新建一个存放新文件的\out目录,dpi设置为600,其余不变(调用了你调入的设置)--检查输出文件名是否是tif,不是的话改成tif--右上角点击“全部转换”

好了 喝半杯咖啡去吧。。(很快的。。)

cep批处理扫描图片教程:


9、扫描的书籍优化效果展示

经过实测,这种底子扎实的原始扫描,半径设置为60左右效果很好。


10、pdf补丁丁的使用

点击左上角“修改常用工具栏”

如此只勾选:合并文件 ,提取图片,导出或导入信息文件

10.2、奇偶页图片合并(觉得本方法复杂的 跳过本条, 参考条目17 最终奇偶页合并方法 很简单)

点“提取图片”把奇数页pdf放入框内。文件名掩码设置为0000A

同理,偶数pdf同样操作,掩码设置为0000B。

把他们放入一个文件夹。

然后打开合并页,拖入制作好的XXXXA 和XXXXB文件进行合并新的pdf。

打开“合并文件”,把所有的tif,或者jpg拖入框内,然后进行合并。

如果你要修改pdf,保留原pdf已经制作好的书签,这时可以使用:

点击“导出或导入信息文件”,把需要导出书签的pdf拖入框内,“pdf信息文件”选一个文件夹名来导出xml格式或者txt格式的书签信息,点击左下角“导出信息文件”。这里推荐导出为txt文件,因为可以在excel里快速编辑书签。

当你优化完pdf文件,或者优化完书签,导入回pdf:

“pdf信息文件”选择修改好的书签,选择:“输出pdf文件”选择一个文件目录,点击右下角:"生成目标文件",生成含有书签的新pdf。

10.6、无损提取pdf中的图片

用cep修改优化别人的pdf时使用。

打开pdf补丁丁--点击“提取图片”--拖动pdf到原始pdf文件 这个框框中--选择输出图片位置--点击“提取图片”

如果只想提取指定页面,在页码范围中写入 比如“1,2,3,4-10,15-20”等等。


除了pdf补丁丁之外还可以用如下两款软件实现奇偶页混合:

奇偶页混合工具:pdftk,(有点复杂 详见条目17最终方法)

我们快速拍照后行成两个文件 一个是奇数页.pdf 一个是偶数页.pdf

用pdftk开始混合奇偶页:

奇偶页合并工具: 文件批量改名(较简单) (本方法还是有点复杂 详见条目17 最终方法)

,然后用pdf补丁丁合并。

最终版:详见条目17.(最终使用本方法)


我追求速度时 都是用的comic enhancer pro 同样的画质 比scantailor处理速度 要快很多倍,使用纯黑白模式+曲线+高斯模糊 基本上能达到scantailor的画质 ,只是没有scantailor,智能裁剪等功能,他有半自动裁剪功能。可以用他来日常使用。

注意:要保存成tif格式,还有就是多使用他的批量处理+模板功能,图片的处理参数设置一次就行,然后保存起来单独调用。批处理时也能调用。


支持无损导出扫描版图片

别人做好的pdf感觉扫描的模糊,可以用它导出成图片,然后用scantailor 或者comicenhancerpro来优化。我其实更多的是优化别人的pdf。知乎6000万活跃用户,如果每人制作一本书,优化一本书,那就太好了。目前的现状还是大部分扫描版pdf还是太模糊。

飞速合成,如果有书签文件,还能连同书签一块儿合成带书签目录的pdf.


完成了扫描pdf-txt-文字pdf的批量转换。稍后发布在github。

变更发布计划,从开源变为闭源,已完成的版本会发布在本贴和我的其他知乎主题帖子中。预计时间2个月内,敬请关注。。。

已经完成了累计十个版本更新,新的文字版pdf可以保留原文件的书签了,匹配了ipad iphone 电纸书 三种版式。

人工智能判断文章各个标题,自动生成书签。二级书签深度。

人工智能判断扫描版文字大小,用来转换后排版。

双栏电子书的ocr自动识别

制作带文字层的双层pdf

Pdf补丁丁和cep是两张皮,用多了还是不方便。。。还是不够全自动化,于是我决定开发自己的全自动扫描书籍优化软件,轻轻一拖动,自动生成优化好的扫描pdf。

计划的功能:自动导出图片,自动放大图片,自动黑白二值化,自动加粗,自动边缘锐化,自动拷贝书签,自动合并pdf等等。

总计还需要30-40次升级。

用了两天写了一个批量ocr的程序,这下扫描到ocr一条龙了!

百度人工智能分为高精度和通用低精度版,高精度我就不说了 识别的 非常完美,低精度识别效果也还是不错的,大于99%识别率。关键是赠送试验次使用,很多。

使用时可以高精度为主,每天限制500页,超出部分用低精度补全。一天高精度识别制作1-2本书我认为自用够用了。

下图为低精度识别效果:


上一节介绍了百度ocr 本节介绍另外一种ocr形式 更方便。

百度ocr自动识别空格 段落 ,但仅此而已。无其他格式。所以 现在流行的是,用acrobat 2020版软件,在扫描版基础上利用ocr制作一层文本层 可以选中,复制,而且与底层图片的文本一一对应,而且可以关键字全文搜索。

经过实测,acrobat比abbyy识别率高不少,所有体检用这款,双层pdf制作接近完美了!

所以, 个人使用推荐双层pdf这种模式,一层扫描图,一层文本。如果自己排版ocr后的纯文本 那叫一个痛苦。。

功能1:用来搜索文本 文本与扫描件一一对应文字位置。

注意:个别文件双层pdf制作后有重影,文字层不透明,原因未知。。正在研究原因。。

17、关于奇偶页文件名改名

很多小伙伴反应之前的奇偶页改名方法太晦涩和复杂,我于是找了一个简单的方法:

首先把我们扫描的文件装在两个文件夹,一个存放奇数页图片,一个存放偶数页图片。他们的初始顺序都是类似001 002 003 。。。。

第二步:拖动奇数页所有文件(已经排序好)到软件下身边的框内。(圈1处)

点击圈2处 添加改名规则。

第三步:选择“序列化”, 增量设为2, 勾选“替换当前名称”,勾选“填充0来补足长度” 设为3 或者4,5都行 根据你图片数量定。你有几百页就写3 几千页就选4

选好后单机“添加规则”

第四步:可以预览到改名后的文件名了,实现了奇数页文件名和页数的一一对应。

第六步:按照以上五步 把偶数页文件夹页全部改名,唯一不同的是起始值是2,其他设置都相同。

第七步:两个文件夹的图片都拷贝到一个文件夹内,即可完成改名流程。

renamer奇偶改名合并视频教程:

一以前一直用abbyy来ocr,貌似无法批量ocr。后来改成自己的ocr调用百度Api。达到了不错的效果。

最近又使用了一款Ocr软件。 他使用的是abbyy的引擎。感觉已经超越了abbyy本身的效果和易用性。

使用方法很简单,打开软件,打开批量功能,点ocr标签。

找到你需要ocr的pdf文件。 可以多次的拖入他这个框框里。点击开始就行啥也不需要设置。。可以挂机喝茶去了。

由于使用的是abbyy的引擎,所以必须要使用比较清晰的pdf格式这就要求源文件扫描的必须得非常扎实,文字细节必须得丰富。。那种模糊的识别率还是不是很高。

但是识别清晰扎实的pdf的时候,识别率还是非常可观的 99%以上也是能达到的。。而且使用的排版算法。 排版就是和原pdf一模一样。排版是近乎于完美。

所所以我这里强烈推荐。

当然我自创的那套ocr系统,我也是强烈推荐。

18.1 如何获得高质量OCR效果

ocr技术很先进,但也是架不住遇到很多大坑。所以为了提高ocr质量做了一番总结:

1、前期拍摄非常扎实,对焦清晰,形变很小,光线均匀,光线精确控制。最好的是1-5MB每页,这样每个文字包含的相对丰富的细节方便后期处理。

如果嫌麻烦,可以使用零边距扫描仪老老实实一张一张的撸,出来就能是成品pdf,不需要太多的后期处理。。

2、cep处理到位,如:梯形失真,曲面失真的处理。扫描仪的话就不需要这么麻烦,直接处成品。

3、cep专门优化:参见我相关的附件的第五个,第六个cep参数,专门针对ocr做的优化:曲线上拉,gamma增粗,高斯锐化(针对ocr,这个参数我发现非常重要),图像变大,亮度增加,对比度增加。

做完这些,你会发现,原先的识别率只有90%,忽然增加到了99%甚至99.99%(实测好几本书)

cep处理后再用万兴PDF ocr的效果(我的第五个cep参数预设):

效果有没有同90%上升到99%呢 甚至99.9% 诶呦不错!

2021年7月 新购一台富士通老式馈纸扫描仪6135zla,实测ocr效果已经达到了99.9%! 四百元的小玩意儿,但是双面ccd扫描,画质对于ocr够用了!

如果用平板扫描仪画质更好那更不用说了!

18.2 如何减小识别后的pdf体积

2021.07刚买了一台溃纸式扫描仪,试着扫了一本图片很多的书dfdf籍,用的1200dpi最高画质,但是文件1.7Gb 。。。500页

超过200mb的文件,pdfelement会经常识别错误,无奈我拆分成了二三十个小pdf来批量ocr,然后合并。竟意外发现了减小体积的方法。。

识别后得得每一个小pdf都有七八十兆,大家也许会想,几十个合并后不还是一个GB多大小吗, 可神奇的是,几十个pdf文件合并后,竟然只有100兆左右,压缩率帅气的达到了90%多!

也许是pdf合并时精简了同类参数把,不过这种无损压缩真是非常实用!

18.3 印影版扫描书籍和影印版+ocr处理后的画质对比:

很多朋友会问,那到底用那种方式呢,我做一个对比:

这个是馈纸式扫描仪火力全开画质下的原图,很扎实,但是经不住放大。需要cep后续处理成纯黑白,但是纯黑白会丢失右下角图片的画质,变为不可用。

这样,文字会变清晰,同时保留排版,保留右下角的原画质的图片。放大后文字依然清晰。

虽然扎实画质,但是变模糊了。即使cep二值化处理后,还是会留下很多锯齿,但是比这个清晰,且不如ocr后的文字效果。

放大后的OCR处理的文字:

随便放大哈。还是清晰。

结论:如果书籍没有艺术字体和数学公式,我这里强烈推荐把影印版的书籍做ocr处理。pdfelement的ocr功能,可以说是我这种强迫症书虫的终极武器了!

18.4 pdf和ocr辅助工具四件套 (本人原创)

在进行书籍优化和使用ocr的过程中,虽然有pdf补丁丁和cep的加持,能做到每天ocr100本书了,但是他们的批处理功能操作效率并未做到极致,我认为还可以挖掘操作上的效率。

所以,我做了一套辅助工具,进一步发掘了pdf制作和ocr制作的批处理效率,每天做500-10000本书籍不再是梦。

实现了万兴PDF的全流程批量化操作:

1 号工具:分类pdf。

优化pdf之前,我会一本一本的查看pdf,将pdf书籍分类成:彩色和灰度书籍,二值化纯黑白书籍,两大类。因为cep处理这两类书籍时候,优化参数完全不同,无法共存一个文件夹批处理。需要两个文件夹。

忙碌了三四小时,终于把当天需要优化处理的pdf分类完成,但是浪费了半天工作时间。

有了这个工具,几分钟就分类完成,效率提高了几十上百倍。酸爽!

新建一个目录,挑选需要优化或者ocr的书籍pdf到这一个目录。

一般攒够一百本-两百本开始处理(批处理嘛,书越多越好)

处理完毕,自动分类成jpg目录和png目录,jpg目录存放彩色书籍和灰度书籍,png目录存放二值化纯黑白书籍。textPDF目录存放文字版pdf。

2号工具 无损批量提取图片

根据cep批处理特性,我们需要解压在一个目录中一次性优化,(比如一百多本彩色书籍放入一个目录,一百多本纯黑白书籍放入一个目录)

这个工具会无损提取文件夹中所有pdf中的图片到d盘pdfpicsxxx目录,每次自动搞一个序号。

我的使用习惯是每次提取一百多本书,提取的书籍图片大概是5-10万页,cep一次性进行优化处理。。

首先在1号工具处理完毕的目录(比如jpeg目录 png目录)中,都拷入2号工具。

然后分别在每个文件夹中双击2号工具,会自动运行。每个文件夹可以同时进行互不影响。

等几十分钟--几个小时,每本书的图片就提取出来了。

3号工具 分卷合并图片

无损 提取图片后,每个目录中有大约5-20万张图,使用上文教程中的cep进行批量处理优化,这文件夹打开一个cep程序,同样支持多开不冲突。

拷贝3号工具 ”分卷合并图片 ”到cep处理完的图片目录,双击进行合并。20页合并为一个pdf。为什么要20页,是因为pdfelement进行ocr的时候,大文件会报错,小文件不会报错。

这时候所有分卷pdf拖动到pdfelement进行ocr处理(不ocr的用户可以跳过此步)

4 号工具 书籍合并到一个文件夹

接上道工序,拷贝4号工具到这个优化合并pdf完成或ocr完成的目录,双击运行。

同一本书的分卷pdf会移动到同一个文件夹

这时候,用pdf补丁丁批量合并功能,合并成最终书籍。

操作:选中所有的书籍目录,比如一百本书的一百个目录,拖动到pdf补丁丁的合并pdf功能区域界面中。

勾选左下方:"顶层目录个并为一个pdf"

等一会儿,全部处理完成。

这四个工具目的是提高效率,所以一次性处理尽可能多的文件,越多效率越高。

我个人目前一次性处理200-400本书,优化和ocr都做。

多个文件夹可以分别拷贝同时运行,进一步提升效率。

二值化的pdf书籍随后附件2和附件4中会有专门的二次优化参数文件提供。

19、关于馈纸式扫描仪

2021.7 最近收拾家里的书籍,整整四箱子,只有十几本曾经做过电子化,纸版阅读还是不方便。于是我想把全部书籍电子化。算了一下时间,如果用v型书架方案,可以拍到腰酸背痛海枯石烂了。。。

于是买了一台馈纸式扫描仪,加速一下。

19.1 馈纸式扫描仪优点

速度快。双面同时扫描,一分钟20-40张,也就是40-80页的速度。

大批量。开机无需预热,可以手动添加扫描,形成多合一的同一批次整体任务。

Twain协议。电脑上随意控制打印机参数,比如锐化,白边,色彩模式等等。非常自由化和集成化。

版式位移公差特别小。由于是裁切好后放入送纸框内,而且扫描探头工作是在机内进行,所以所有的页面都是固定的位置,固定的参数扫描,无v型书架方案那种光源,位移等干扰,也没有平板扫描仪的页面位移干扰。每页的扫描的的位置公差可以忽略不计。很好的补充了v型书架方案的不足。

自带软件。像中晶,富士通,柯达这些专业大厂,软件做的非常易用,多功能,自动化,同硬件高度匹配,软件的品控也超越很多第三方小公司作品。我用着很舒适!

体积小重量轻。比如我买的富士通6135zla这款,非常小巧,放在家里颜值不错,又不占地方。当然,还有更小的款式,空间利用更佳!重量也就2kg多把,小孩一样也能搬得动。

分辨率足够。虽然没有顶级平板扫描仪那种变态的画质,但是也达到了拍普通彩色书籍的水准。比如我的这款富士通6135zla,twain协议下设置到1200dpi精度,扫描效果我非常满意!图片达到了左右的分辨率尺寸,对比600dpi的的主官真实画质,提升了一个档次!600dpi的时候,会有色彩断层(pdf有断层,可能因为富士通软件合成pdf时画质压缩。 如果是600dpi的图片格式,没断层,画质很好),1200dpi后画质就细腻很多,没有任何噪点和色彩断层。(我的扫描仪是双面ccd 可能画质本身比较好,cis传感器的型号可能会画质稍微弱一些)

下图是我刚扫描的一本书 灰度模式,1200dpi,单张照片分辨率大小。ocr以后,图片部分高清,文字部分完美文字,排版也ok!我已经深度中毒这种ocr阅读,因为阅读体验太好了!

可见,区区四百元的老式双ccd馈纸式扫描仪就达到了很高清的画质。

Ocr更方便。我实测发现,600dpi,1200dpi精度的扫描后可以直接ocr,正文的识别精度主观体验达到了99.5%和99.9% ,之前网上下载的很多高质量扫描书籍,很多都是适当的压缩,所以直接扫描识别率都很拉胯。。必须经过cep锐化,拉曲线,gamma处理以后才能达到99.5%以上的识别率,比较繁琐。。所以还是自己扫描的更香。。。

19.2 馈纸式扫描仪的缺点

需要裁切书籍。个别的有收藏价值的书籍不适合这种方式。

无法达到变态级画质。这时候需要祭出平板扫描仪。

厉害哈 你竟然看到了这里,下边是最后一章:

20、总结一下技术路线:

2021.7月 我最近又买了一台成者et18 玩玩ocr 还是不错的。 原装灯在正上方,我将 两侧增加了补光。

同月 同时购买了一台老式富士通6135zla双ccd馈纸式高速小型a4画幅扫描仪。这个出乎意料的非常好用!惊喜!

下一步计划购买一台零边距扫描仪或者短边距扫描仪玩玩。

技术路线总结(2021年7月版):

1 自制v型书架拍照 (必备,常用

2 成者et18高拍仪 (备用,选配)

3 平板扫描仪 中晶v700plus 或 中晶i360 (高质量扫描必备)

4 零边距扫描仪 虹光2200 或3160(扫描速度快 1.8秒一页)

5 馈纸式扫描仪 柯达(拆书党专用,0.x秒一页)

4 成者et18配套的软件(备用,选配)

5 中晶扫描仪配套软件(极限高质量扫描必备,常规选配)

1 某宝找书业务(扫描版) 3元一本(懒人必备

通过这些技术路线我们发现,各有特色,所以截止目前(2021.7),我认为所有设备各来一套,所有方法全部学会,才是最高效的扫描书籍的策略!速度,画质,无死角!

2021年的想法,因为之前几年积累了不少电子书,所以便有了这个想法。

实现功能:本地硬盘中所有的电子书 包括txt epub pdf等 实现全文检索。

经过实测,txt,html epub格式可以天生支持这款软件的全文搜索。

Pdf文件略为复杂。Pdf分为文字版和扫描版。 文字版,大多数支持他的全文搜索。扫描版必须变成Ocr处理后的双层文件或者转成纯文字版。或者转成带排版的图文混排文字版pdf.这样就可以了。

第一个(加粗版,用于扫描的太浅的书籍):纯黑白+usm锐化+抖动算法 v1 加强版,很粗的效果

纠斜: 自动_横排, 边缘保留

高斯模糊半径: 1.7

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN

第二个(优化版,用于本身比较不错的需要优化的扫描书籍):纯黑白+usm锐化+抖动算法 v1 扫描的优化版

纠斜: 自动_横排, 边缘保留

页面大小: 内容框大小

高斯模糊半径: 1.1

色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Otsu, 去斑直径=8, 去除与边缘接触的黑色区域, 边缘去毛刺

第三个:基础版 用于日常处理 纯黑白+usm锐化+抖动算法 v1

高斯模糊半径: 1.3

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN


更新:两个ocr使用的配置参数。文字锐化+图文混排优化 明显提高了万兴pdf中ocr的识别率。实测达到了大约90%上升到99%以上的提升幅度。

更新:ocr3号参数,用于想保留更多图像细节的图文混排书籍。

更新:ocr4号参数,用于比较淡的,画质比较差的扫描书籍。

ocr5号参数,2号基础上减少对比度,曲线向下拉比较黑。 3号比较淡。

我目前常用2号,5号,优化来自网络的扫描书籍。2号淡5号黑。

3号来优化质量非常好的扫描书籍,也用的比较多。

更新:wolf算法 纯黑白文字2号参数,这个利用了多尺度细节增强,可以处理非照片的 图片,是wolf算法参数的改进版,文字依然锐利,而且ocr以后识别率提升一个级别。强烈推荐。

[纯黑白+usm锐化+抖动算法 v1 修改扫描版]

[wolf算法 纯文字版使用]

[ocr用 图文均衡 图文混排可用]

[ocr用 2号 图文混排优化图片效果]

[ocr 3号 更弱的锐化 图文混排用]

[ocr4号 文字加黑优化 兼顾图像]

[wolf 纯文字版 2.0 多尺度细节增强高斯锐化]

附3:真实制作案例:使用了黑白模式+抖动算法+usm锐化

链接:提取码:Wk85

265MB的彩色原版pdf,处理后编程了11.7MB。。。。

画质强迫症患者, 极客 可以看一下这个版本40MB 画质真的快到极限了 169%的放大 ,600dpi,超多gamma.各种调整和微调:

链接: 提取码:3732

附4:所有用到的工具的下载:

1本人已经开发出整本书pdf的批量ocr识别

附件8:pdf和ocr辅助工具四件套下载地址:

我要回帖

更多关于 张鸣的书有哪些 的文章

 

随机推荐