基于大神作品修改原文,使用了一下发现有一些小问题,爬取的博客标题如果含有字符是Windows不支持的命名格式,会卡在界面,进行了一下优化,加了一些字符过滤处理,但是tomd模块对html的处理还是不是很好,比如页面中包含
这种标签,或者一些表格内容,是无法完整处理的,后面看看再优化一下。
相关文章
- [转]如何快速转载CSDN中的博客
- 转:解决“arcsde服务启动又停止的问题” - shmiloy001的专栏 - 博客频道 - CSDN.NET
- MarkDown的格式转换(转PDF,Word,HTML)以及导入个人博客
- 【转】log4j.properties 详解与配置步骤 - edward0830ly的专栏 - 博客频道 - CSDN.NET
- 使用Javascript/jQuery将javascript对象转换为json格式数据 - 海涛的CSDN博客 - 博客频道 - CSDN.NET
- CSDN博客转MD格式
- enex 转 md 格式的几种方式(免费版/氪金版)
- 【转】如何使用离线博客发布工具发布CSDN的博客文章
- 【转】Android Building System 总结 - 一醉千年 - CSDN博客
- [置顶] [原创]自己动手写CSDN博客提取器,提取文件保存支持PDF、doc、txt三种格式