Tag: web

使用java解析robot.txt并确定是否允许使用url

我目前在应用程序中使用jsoup来解析和分析网页。但我想确保我遵守robot.txt规则并且只访问允许的页面。 我很确定jsoup不是为此制作的,而是关于网页抓取和解析。 所以我计划让函数/模块读取域/站点的robot.txt,并确定我是否允许访问的URL。 我做了一些研究,发现了以下内容。但是我不确定这些,所以如果有人做同样的项目,其中涉及到robot.txt解析请分享你的想法和想法会很棒。 http://sourceforge.net/projects/jrobotx/ https://code.google.com/p/crawler-commons/ http://code.google.com/p/crowl/source/browse/trunk/Crow/src/org/crow/base/Robotstxt.java?r=12

网站和WebApplication之间的区别?

我已经搜索了很多关于Website和WebApplication之间的区别,但没有得到明确的答案。 阅读后我甚至更加困惑。

在servlet中启动一个新线程

当请求到达处理文件上传的servlet时,最好使用new Thread(r).start()在该servlet中启动一个新线程,它将处理上传的文件附带的另一段数据。 我希望这能同时处理这两个工作。

Maven项目错误:-source 1.5中不支持Diamond / multicatch运算符

由于以下两个错误,我无法构建我的maven java Web应用程序: diamond operator is not supported in -source 1.5 (use -source 7 or higher to enable diamond operator) multi-catch statement is not supported in -source 1.5 (use -source 7 or higher to enable multi-catch statement) 我很困惑,因为我使用java 1.8.0作为我的项目,我从来没有实际使用过1.5 什么可能导致这个问题,我该如何解决? 我在pom.xml中添加了以下行后尝试构建它,但没有成功: 1.8 1.8

如何从网页中提取文本内容?

我正在开发一个java应用程序,它可以从不同的网页获取文本信息,并将其汇总到一个页面。例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等。现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起。应用程序基于Web内容挖掘的概念。作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步。 所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等。 我的问题是我该怎么做? 请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序。或者至少给我一些提示如何实现它?

Request,Session和ServletContext中的属性之间的差异

我无法理解这三种设置属性的方法之间的差异: // String as attribute of request req.setAttribute(“name”, “Sluggo”); // Integer as attribute of session req.getSession().setAttribute(“age”, 10); // Date as attribute of context getServletContext().setAttribute(“today”, new Date()); 有什么区别? 你应该什么时候使用?

如何从loadContent()加载html和javascript进入webengine?

有人可以提供一些关于如何从loadContent()加载到webviewer的建议吗? 我试图做这样的事情,但似乎没有用。 谢谢! Scanner sc1 = new Scanner(new File(“src/web/web.html”)); String webStr = sc1.useDelimiter(“\\Z”).next(); Scanner sc2 = new Scanner(new File(“src/web/data.js”)); String dataStr = sc2.useDelimiter(“\\Z”).next(); Scanner sc3 = new Scanner(new File(“src/web/cytoscape.min.js”)); String cytoStr = sc3.useDelimiter(“\\Z”).next(); Scanner sc4 = new Scanner(new File(“src/web/jquery.min.js”)); String jqueryStr = sc4.useDelimiter(“\\Z”).next(); webEngine.loadContent(cytoStr, “text/javascript”); webEngine.loadContent(jqueryStr, “text/javascript”); webEngine.loadContent(dataStr, “text/javascript”); webEngine.loadContent(webStr, “text/html”);

为什么WEB-INF文件夹里面的jsp文件有效,但放在WEB-INF下的文件夹下不行?

当我的jsp文件在WEB-INF文件夹中(作为/WEB-INF/file.jsp)时,我可以从localhost:8080 / ProjectCtxtRoot /访问它们,但如果将它们放在/ WEB-中我无法访问它们INF / JSP / file.jsp? 我在web.xml中更改了welcome-list标记中的路径,如下所示 /JSP/fileName.jsp 我还更改了dispatcher-servlet.xml,如下所示 它仍然无效。 用于上述案例的url是 localhost:8080/ContextRoot/jsp/ localhost:8080/ContextRoot/jsp/fileName.jsp localhost:8080/ContextRoot/jsp/fileName 它不适用于上述任何url。 但它工作的时候 /fileName.jsp dispatcher-servlet.xml如下 用于上述案例的URL是localhost:8080 / ContextRoot /并且它可以工作。 我使用tomcat v 7.0服务器。 我在Eclipse IDE中刷新我的项目,然后清理它,构建它,使用mvn clean install构建war,然后从tomcat manager主页选择war并部署它。 我每次都这样做。 这就是diapatcher-servlet.xml在整个过程中的外观。 我只是改变了上面所说的特定部分 <!– –> <!– /WEB-INF/views/views.xml –> 这就是我的web.xml的样子 <!– Archetype Created Web Application –> dispatcher org.springframework.web.servlet.DispatcherServlet <!– contextConfigLocation /src/main/webapp/WEB-INF/dispatcher-servlet.xml –> 1 […]

获取Java应用程序服务器名称和版本

我正在使用Java编写Web应用程序,并且此WAR应用程序可以部署到不同的应用程序服务器,例如Tomcat / JBoss / Jetty / Weblogic。 出于诊断目的,我想实现一个动态网页来收集各种环境/系统信息,以便客户可以将这些信息提供给支持工程师进行诊断。 一个有用的信息是应用程序服务器名称和部署此应用程序的版本,例如Tomcat 7.0 , JBoss 5.1.0 , Glassfish 3.0等。 我只是想知道是否有任何标准方法从不同的JEE应用程序服务器检索应用程序服务器的名称和版本。

在Web应用程序中注册shutDownHook

我们如何在Web应用程序中注册关闭挂钩? 有没有什么可以在web.xml或applicationContext.xml中注册它? 我知道如果我们使用主类的应用程序,那很简单。 ClassPathXmlApplicationContext context = new ClassPathXmlApplicationContext(“ApplicationContext.xml”); context.registerShutdownHook(); 但是Web应用程序怎么样? 因为它使用ContextListener