#LBTSE
Данный проект представляет собой полный исходный код поисковой системы TSE Пекинского университета, включая исходные коды двух независимых проектов: индекса и краулера. Заинтересованные друзья могут обратиться к книге «Поисковая система — принципы, технологии и системы» для изучения TSE.
Адрес для скачивания исходного кода, предоставленный в книге «Поисковая система — принципы, технологии и системы»: http://sewm.pku.edu.cn/book/. Однако доступ к нему часто бывает недоступен. Здесь я публикую исходный код с подробными комментариями, который я скачал ранее для обучения. Кроме исходного кода с комментариями, есть также подробные учебные заметки — адрес колонки CSDN Blog: http://blog.csdn.net/column/details/inside-tse.html. Надеюсь, это будет полезно для начинающих друзей.
Описание каталога:
tse081227 — подсистема сбора веб-страниц TSE (краулер).
index — подсистема предварительной обработки и обслуживания запросов TSE. Этот каталог очень большой, но не потому что исходный код большой, а потому что файл index/Data/Tianwang.raw.2559638448, который является исходными данными веб-страницы, полученными краулером, очень большой.
Кроме того, исходный файл index/Data/Tianwang.raw.2559638448 имеет размер более 300 МБ. При загрузке он превышает максимальное ограничение файла git.oschina.net (100M), поэтому содержимое файла было удалено. Чтобы получить меньший файл, на работу всей системы это никак не повлияло, поскольку это всего лишь исходные данные веб-страницы, которые можно удалить без последствий.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )