• 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

    时间:2023-11-11 21:32:54

    为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一、环境准备python 2.7 scrapy框架的部署(可以查看上一篇博客的简要操作,传送门:点击打开链接)mysql的部署(需要的资源百度网盘链接:点击打开链接)heidiSQL数据库可...

  • Python爬虫:抓取新浪新闻数据

    时间:2023-11-11 21:19:27

    案例一抓取对象:新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称、时间、链接。完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/chin...

  • 新浪SAE数据库信息(用户&密码&主地址)

    时间:2023-10-31 17:16:57

    用户名 : SAE_MYSQL_USER密码 : SAE_MYSQL_PASS主库域名 : SAE_MYSQL_HOST_M从库域名 : SAE_MYSQL_HOST_S端口 : SAE_MYSQL_PORT数据库名 : SAE_MYSQL_DB######################用户名: ...

  • 强大的CSS 属性选择符 配合 stylish 屏蔽新浪微博信息流广告

    时间:2023-10-07 18:47:31

    新建一条微博域名下的规则:@-moz-document domain("weibo.com") { #v6_pl_rightmod_rank,#v6_pl_rightmod_ads35,#v6_pl_content_biztips,div[feedtype="ad"],#v6_pl_rightmod...

  • 用python2.7,采集新浪博客

    时间:2023-10-01 18:35:02

    #coding=utf-8 #新浪博客import urllibimport reimport osurl=['']*1500 #每一骗博客的地址title=['']*1500 #每一篇博客的标题page=1 #博客分页count=1 #文章计数while page<=9:c...

  • 新浪博客地址 http://blog.sina.com.cn/u/2145079955

    时间:2023-10-01 18:34:50

    原来 新浪博客地址 http://blog.sina.com.cn/u/2145079955

  • LoadRunner测试结果分析03 转载至zhangzhe的新浪博客

    时间:2023-09-25 16:05:49

    LoadRunner测试结果分析之我见前面分析的Web Resource(网络资源)的测试情况,其主要关注的是服务器性能,而系统本身和环境都有可能存在问题,页面诊断(Web Page Diagnostics)主要就是关注这方面的问题。页面诊断可以很好地定位环境问题,如客户端问题、网络问题等,也可以很...

  • Swift轻松入门——基本语法介绍和详细地Demo讲解(利用WebView打开百度、新浪等网页)

    时间:2023-09-17 19:45:26

    转载请务必注明出处(all copyright reserved by iOSGeek)本文主要分为两个部分,第一部分介绍Swift的基本语法,第二部分讲解一个利用WebView来打开百度、sina等网页的小demo,如果对swift的语法不感兴趣的同学可以直接跳到第二部分来感受下Swift的魅力~...

  • js浏览器键盘事件控制(转自新浪微博)

    时间:2023-09-06 19:03:07

    js键盘事件全面控制主要分四个部分第一部分:浏览器的按键事件第二部分:兼容浏览器第三部分:代码实现和优化第四部分:总结第一部分:浏览器的按键事件用js实现键盘记录,要关注浏览器的三种按键事件类型,即keydown,keypress和keyup,它们分别对应onkeydown、 onkeypress和...

  • python2.7 爬虫初体验爬取新浪国内新闻_20161130

    时间:2023-08-29 19:14:08

    python2.7 爬虫初学习模块:BeautifulSoup requests1、获取新浪国内新闻标题2、获取新闻url3、还没想好,想法是把第2步的url 获取到下载网页源代码 再去分析源代码 获取新闻详情页 发表时间 新闻来源等数据 结合MySQLdb模块导入到数据库4、疑惑:期望是整体获取这...

  • java 模拟登录新浪微博(通过cookie)

    时间:2023-07-21 20:07:14

    这几天一直在研究新浪微博的爬虫,发现爬取微博的数据首先要登录。本来打算是通过账号和密码模拟浏览器登录。但是现在微博的登录机制比较复杂。通过账号密码还没有登录成功QAQ。所以就先记录下,通过cookie直接访问自己的微博主页。微博登录的认证过程微博登录的细节在其他的博客里已经有了详细的介绍。大概就是用...

  • 最大的Redis集群:新浪Redis集群揭秘

    时间:2023-05-20 22:37:58

    前言Tape is Dead,Disk is Tape,Flash is Disk,RAM Locality is King.       — Jim GrayRedis不是比较成熟的Memcache或者Mysql的替代品,是对于大型互联网类应用在架构上很好的补充。现在有越来越多的应用也在纷纷基于R...

  • LoadRunner测试结果分析02 转载至zhangzhe的新浪博客

    时间:2023-04-29 15:57:02

    LoadRunner测试结果分析之我见上述测试过程的重点在于事务,而LoadRunner生成的测试结果图并不局限于事务上,其中还有是关于Vusers、Errors、Web Resources、Web Page diagnostics的测试图。1. 对于Vusers的测试图有3种:Running Vu...

  • 推荐一款自己的软件作品[豆约翰博客备份专家],新浪博客,QQ空间,CSDN,cnblogs博客备份,导出CHM,PDF(转载)

    时间:2023-03-22 14:33:26

    推荐一款自己的软件作品[豆约翰博客备份专豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站(QQ空间,百度空间,新浪博客,网易博客,豆瓣日记,天涯博客,19楼,博客园,和讯博客,CSDN博客,搜...

  • LoadRunner测试结果分析01 转载至zhangzhe的新浪博客

    时间:2023-03-10 16:01:50

    LoadRunner测试结果分析之我见LoadRunner生成测试结果并不代表着这次测试结果的结束,相反,这次测试结果的重头戏才刚刚开始。如何对测试结果进行分析,关系着这次测试的成功与否。网上关于LoadRunner测试结果如何分析的介绍相当匮乏,在总结他人的观点和自己的实验体会基础上来介绍如何进行...

  • 在ASP.NET MVC5应用程序中快速接入QQ和新浪微博OAuth

    时间:2023-02-23 12:45:53

    http://www.cnblogs.com/xiaoyaojian/p/4611660.html在ASP.NET MVC5应用程序中快速接入QQ和新浪微博OAuth的更多相关文章在ASP&period;NET MVC应用程序中实现Server&period;Transfer&...

  • CI框架下 新浪微博登录接口完整版

    时间:2023-02-21 08:19:14

    https://www.cnblogs.com/yznyzcw/p/3756622.html#top说明:本贴只适合CI框架。功能实现:登录接口跳转链接成功,获取用户信息(包括最重要的u_id)成功,将用户与本地平台连接起来,用户登录成功后信息的存储,本地数据库第三方登录表的设计。总之接口流程已全部...

  • 高仿SinaWeibo新浪微博发布页面话题效果

    时间:2023-02-09 08:16:08

    最近做了一个仿新浪微博话题效果的功能,网上搜索了几个效果,都存在一定问题,最终借鉴别人的思路,完成这一套效果. 首先,我们拆分逻辑以及开发顺序. 1,实现话题变色效果 2,实现插入话题效果 3,实现话题选中删除效果 4,实现点击话题,光标在话题之后 下面我们就一步...

  • LaTeX技巧203:如何实现等号对齐_LaTeX_Fun_新浪博客

    时间:2023-02-08 06:46:17

    LaTeX技巧203:如何实现等号对齐_LaTeX_Fun_新浪博客 我们在进行公式的输入排版的时候,通常希望公式比较齐整,所以需要一些等号对齐,或者左对齐,关于公式的左对齐前文已经介绍了方法。 http://blog.sina.com.cn/s/blog_5e16f1770100ggwo.h...

  • Python爬虫【四】Scrapy+Cookies池抓取新浪微博

    时间:2023-02-08 04:59:31

    1.设置ROBOTSTXT_OBEY,由true变为false2.设置DEFAULT_REQUEST_HEADERS,将其改为request headers3.根据请求链接,发出第一个请求,设置一个start_request方法,并在方法中定义相关的配置,比如在本例中设置搜索的关键字keyword4...