多测师是一家拥有先进的教学理念,强大的师资团队,业内好评甚多的接口自动化测试培训机构!

17727591462

联系电话

您现在所在位置:接口自动化测试培训 > 新闻资讯

Scrapy+Selenium爬取UC头条网站-自动化测试

更新时间:2022-04-06 09:20:29 作者:多测师 浏览:182

  Scrapy是Python优秀的爬虫框架,selenium是非常好用的自动化WEB测试工具,两者结合可以非常容易对动态网页进行爬虫。

  本文的需求是抓取UC头条各个板块的内容。UC头条网站没有提供搜索入口,只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索,抓取其内容,采用一般的scrapy请求方式,每次只能获取最新的10条数据,分析其JS请求,发现参数过于复杂,没有规律。如果想获取更多数据,则需要采用模拟浏览器的方法,这时候selenium就派上用场了。

Scrapy+Selenium爬取UC头条网站-自动化测试

  1,定义spider

  模拟从百度搜索进入,这个步骤可以省略,主要为了跳到parse函数

  classUCTouTiaoSpider(VideoBaseSpider):

  name="uctoutiao_spider"

  df_keys=['人物','百科','乌镇']

  def__init__(self,scrapy_task_id=None,*args,**kwargs):

  self.url_src="http://www.baidu.com"

  defstart_requests(self):

  requests=[]

  request=scrapy.Request("http://www.baidu.com",callback=self.parse)

  requests.append(request)

  returnrequests

  2,parse函数

  defparse(self,response):

  self.log(response.url)

  urls=["https://news.uc.cn/",

  "https://news.uc.cn/c_redian/",

  #"https://news.uc.cn/c_shipin/",

  #"https://news.uc.cn/c_gaoxiao/",

  "https://news.uc.cn/c_shehui/",

  "https://news.uc.cn/c_yule/",

  "https://news.uc.cn/c_keji/",

  "https://news.uc.cn/c_tiyu/",

  "https://news.uc.cn/c_qiche/",

  "https://news.uc.cn/c_caijing/",

  "https://news.uc.cn/c_junshi/",

  "https://news.uc.cn/c_tansuo/",

  "https://news.uc.cn/c_lishi/",

  "https://news.uc.cn/c_youxi/",

  "https://news.uc.cn/c_lvyou/",

  "https://news.uc.cn/news/",

  "https://news.uc.cn/c_shishang/",

  "https://news.uc.cn/c_jiankang/",

  "https://news.uc.cn/c_guoji/",

  "https://news.uc.cn/c_yuer/",

  "https://news.uc.cn/c_meishi/"]

  #启动浏览器,这里用的火狐,如果在linux环境下可以用PhantomJS,稳定性稍微差点,有内存泄露的风险。

  driver=webdriver.Firefox()

  forurlinurls:

  try:

  print(url)

  driver.get(url)

  #模拟鼠标滚到底部(加载100条数据)

  for_inrange(10):

  driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

  driver.implicitly_wait(10)#隐性等待,最长10秒

  #printdriver.page_source

  soup=bs(driver.page_source,'lxml')

  articles=soup.find_all(href=re.compile("/a_w+?/"),text=re.compile(".+"))

  forarticleinarticles:

  forkeyinself.df_keys:

  item=VideoItem()#自定义的Item

  item['title']=article.text

  item['href']=article['href']

  self.log(item)

  yielditem

  exceptExceptionase:

  printe

  ifdriver==None:

  driver=webdriver.Firefox()

  ifdriver!=None:

  driver.quit()

  真正的实现部分比较简单,几句代码就搞定了。

  附:

  selenium使用实例

  1,切换焦点至新窗口

  在页面上点击一个button,然后打开了一个新的window,将当前IWebDriver的focus切换到新window,使用IWebDriver.SwitchTo().Window(stringwindowName)。

  例如,我点击按钮以后弹出一个名字叫做”ContentDisplay”的window,要切换焦点到新窗口的方法是,首先,获得新window的windowname,大家不要误以为pagetile就是windowname哦,如果你使用driver.SwitchTo().Window(“ContentDisplay”)是找不到windowname叫做”ContentDisplay”的窗口的,其实WindowName是一长串数字,类似“59790103-4e06-4433-97a9-b6e519a84fd0”。

  要正确切换到”ContentDisplay”的方法是:

  获得当前所有的WindowHandles。

  循环遍历到所有的window,查找window.title与”ContentDisplay”相符的window返回。

  forhandleindr.window_handles:

  dr.switch_to.window(handle)

  printdr.title

  iflen(dr.title)=='目标窗口标题':

  break

  参考:Selenium-IWebDriver.SwitchTo()frame和Window的用法

  2,移至底部

  driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")

  3,移动至指定元素

  某些按钮点击时必须可见,于是要把屏幕移动到按钮可见的区域

  element=driver.find_element_by_xpath("//a[@class='p-next']")

  element.location_once_scrolled_into_view

  #或者

  driver.set_window_size(800,800)

  element=driver.find_element_by_xpath("//a[@class='p-next']")

  js="window.scrollTo({},{});".format(element.location['x'],element.location['y']-100)

  driver.execute_script(js)

  以上内容为大家介绍了自动化测试中的Scrapy+Selenium爬取UC头条网站,本文由多测师亲自撰写,希望对大家有所帮助。了解更多自动化测试相关知识:https://www.aichudan.com/xwzx/

联系电话

17727591462

返回顶部