如何编写可以在网页上浏览和操作的自动化机器人

我需要编写一个需要执行以下操作的机器人:

转到jsp页面并按以下方式搜索:

  • 1:在搜索框上写一些东西
  • 2:点击搜索按钮(提交按钮)
  • 3:单击其中一个生成的按钮/链接(具有不同输出的相同jsp页面)
  • 4:获取新页面的整个html(具有不同输出的相同jsp页面)

第四个可以用屏幕抓取完成,我认为我不需要它的帮助。 但我需要一些指导,从1到3做选项。任何链接或只是一些关键字,将帮助我谷歌了解它将不胜感激。 我计划用java做这个。

也许这不是你想要的,但你可以试试selenium: http : //seleniumhq.org/

这是一个Web应用程序测试系统。

您只需要HTMLUnit

这是其描述的摘录

HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.

PS:曾用它来构建网络抓取项目;)

你可以使用python-mechanize 。

Prerequistes:

  1. Selenium API。
  2. Mozilla Firefox(安装了firebug扩展)

我们可以实现浏览器的启动,转到特定的网页,搜索关键字并通过执行以下操作来分析结果

  1. 启动Web浏览器(driver.launch()(selenium)
  2. 转到特定网页(driver.get(“您的网页寻呼机”))(selenium)
  3. 识别搜索框(使用火灾bug(id,xml路径等)获取标识符
  4. 转到该框并编写搜索关键字(webelement.sendkeys(“your keyword”)并单击搜索按钮(webelement.click())(selenium)
  5. 使用标识符单击所需结果并加载下一个网页(selenium)

我在铬中使用了selenium。 如果你想使用selenium,你必须从http://www.seleniumhq.org/download/下载—最新版本并在neatbeans中实现或者eclipse jar文件。 (Selenium客户端和WebDriver语言绑定,Selenium独立服务器)此后你必须从谷歌https://sites.google.com/a/chromium.org/chromedriver/ – chrome驱动程序下载最新版本提取文件和保存在您的电脑上。