자바 웹 크롤러 소스 코드를 사용하여 브라우저의 구현 구조를 사용하여 구현했습니다. 완전한 소스 코드에서 직접 사용할 수있습니다.
File list:
java网络爬虫源码
.........\build
.........\.....\web
.........\.....\...\META-INF
.........\.....\...\........\context.xml
.........\.....\...\........\MANIFEST.MF
.........\.....\...\WEB-INF
.........\.....\...\.......\classes
.........\.....\...\.......\.......\com
.........\.....\...\.......\.......\...\sohu
.........\.....\...\.......\.......\...\....\bean
.........\.....\...\.......\.......\...\....\....\NewsBean.class
.........\.....\...\.......\.......\...\....\crawler
.........\.....\...\.......\.......\...\....\.......\Crawler$1.class
.........\.....\...\.......\.......\...\....\.......\Crawler.class
.........\.....\...\.......\.......\...\....\.......\LinkDB.class
.........\.....\...\.......\.......\...\....\.......\LinkFilter.class
.........\.....\...\.......\.......\...\....\.......\LinkParser$1.class
.........\.....\...\.......\.......\...\....\.......\LinkParser$2.class
.........\.....\...\.......\.......\...\....\.......\LinkParser.class
.........\.....\...\.......\.......\...\....\.......\NewsToDB.class
.........\.....\...\.......\.......\...\....\.......\Queue.class
.........\.....\...\.......\.......\...\....\db
.........\.....\...\.......\.......\...\....\..\ConnectionManager.class
.........\.....\...\.......\.......\...\....\servlet
.........\.....\...\.......\.......\...\....\.......\GetNewsServlet$1.class
.........\.....\...\.......\.......\...\....\.......\GetNewsServlet.class
.........\.....\...\.......\.......\...\....\SohuNews$1.class
.........\.....\...\.......\.......\...\....\SohuNews.class
.........\.....\...\.......\.......\.netbeans_automatic_build
.........\.....\...\.......\lib
.........\.....\...\.......\...\htmllexer.jar
.........\.....\...\.......\...\htmlparser.jar
.........\.....\...\.......\...\mysql-connector-java-5.1.6-bin.jar
.........\.....\...\.......\web.xml
.........\.....\...\detail.jsp
.........\.....\...\index.jsp
.........\dist
.........\....\Sohu.war
.........\nbproject
.........\.........\private
.........\.........\.......\private.properties
.........\.........\.......\private.xml
.........\.........\ant-deploy.xml
.........\.........\build-impl.xml
.........\.........\genfiles.properties
.........\.........\project.properties
.........\.........\project.xml
.........\src
.........\...\conf
.........\...\....\MANIFEST.MF
.........\...\java
.........\...\....\com
.........\...\....\...\sohu
.........\...\....\...\....\bean
.........\...\....\...\....\....\NewsBean.java
.........\...\....\...\....\crawler
.........\...\....\...\....\.......\Crawler.java
.........\...\....\...\....\.......\LinkDB.java
.........\...\....\...\....\.......\LinkFilter.java
.........\...\....\...\....\.......\LinkParser.java
.........\...\....\...\....\.......\NewsToDB.java
.........\...\....\...\....\.......\Queue.java
.........\...\....\...\....\db
.........\...\....\...\....\..\ConnectionManager.java
.........\...\....\...\....\servlet
.........\...\....\...\....\.......\GetNewsServlet.java
.........\...\....\...\....\SohuNews.java
.........\...\lib
.........\...\...\commons-codec-1.3.jar
.........\...\...\commons-httpclient-3.1.jar
.........\...\...\commons-logging-1.0.4.jar
.........\...\...\htmllexer.jar
.........\...\...\htmlparser.jar
.........\test
.........\....\com
.........\....\...\sohu
.........\....\...\....\SohuNewsTest.java
.........\web
.........\...\META-INF
.........\...\........\context.xml
.........\...\WEB-INF
.........\...\.......\web.xml
.........\...\detail.jsp
.........\...\index.jsp
.........\build.xml
.........\news.sql