| проект: | Web Crawler |
| Индустрия: | Телекоммуникации |
| Категория: | Коммуникации |
| Длительность: | 01.12.2008 - 28.02.2009 (480h) |
| Платформа: | Java |
| Операционная система: | Linux |
| База данных: | MySQL |
| Язык программирования: | Java |
Web crawler application which is able to download and process HTML content.
Details: Downloads HTML pages from the specified web sites, parses content, extracts keywords and decides on a page/site class (i.e. commercial use, under construction, has legal information, etc).
Technologies: Spring framework, Heritrix engine