classifier4php
Простой классификатор на основе PHP и word2vec для автоматической классификации статей, новостей и другого контента. Проект включает в себя обучение образцов и распознавание кода.
Для токенизации используется компонент PhpAnalysis, который отличается простотой и гибкостью. Приглашаем всех желающих к совместной оптимизации и улучшению проекта.
Адрес проекта:
Код Cloud: https://gitee.com/mz/classifier4php
GitHub: https://github.com/djunny/classifier4php
Фон
Каждый поисковый движок имеет свою собственную совершенную систему классификации. Даже самые простые классификаторы могут определить тип вашего сайта. В эпоху огромного количества контента можно легко собирать и извлекать данные из интернета, но эти данные часто беспорядочны и неорганизованны. Ручная классификация может быть слишком затратной.
Автор имеет опыт работы с различными группами сайтов и вертикальными сайтами и хорошо понимает важность классификаторов.
Среда выполнения
Если ваша операционная система — Linux, Centos или другая, вам необходимо самостоятельно загрузить и скомпилировать word2vec (https://code.google.com/p/word2vec/). Затем измените путь выполнения word2vec в run.php:
define('EXE_WORD2VEC', 'word2vec.exe');
Система поставляется с версией word2vec для Windows.
Пример проекта 1: demo1/run.php
В проекте приведён пример, как автоматически обучить и классифицировать романы как современные или классические. Результаты тренировочного набора файлов уже доступны в каталоге source_data. Вы можете просто поместить файлы романов, которые вы хотите распознать, в каталог source_target, и они будут автоматически распознаны.
Способ запуска
Настройте путь PHP в системной переменной PATH или выполните вручную:
/path/php run.php > run.log
Результаты выполнения будут отображаться в файле run.log.
Примечание: в Windows после настройки PATH вы также можете напрямую запустить run.bat.
Пример проекта 2: demo2/index.php
Посетите этот пример через браузер и сделайте снимок экрана:
Этот экземпляр был обучен на миллионах данных и может использоваться непосредственно в производственной среде для классификации новостей. Он поддерживает автоматическую классификацию следующих распространённых типов новостей:
Финансы
-Страхование
-Производственная экономика
-Макроэкономика
-Инвестиционные фонды
-Управление финансами
-Бизнес
-Новые акции
-Банки
-Ценные бумаги
Недвижимость
-Сплетни
-Знаменитости
-Политика
-Эксперты
-Информация
Международные новости
Внутренние новости
Военные новости
-Гонконг, Макао и Тайвань
-Наблюдение
-Международные
-Внутренние
-Технологии
-Секретная история
-Комментарии
Технологии
-IT
-Интернет
-Бытовая техника
-Крутые игры
-Программное обеспечение
-Цифровые технологии
-Исследование
-Связь
История
-Декодирование
-Персонажи
-Литература и история
-Дикая история
-Военная история
Путешествия
-Открытие
-Руководство
Еда
Женщины
-Макияж
-Увеличение груди
-Уход за кожей
-Духи
-Пластическая хирургия
Автомобили
-Производители
-Интервью
-СМИ
-Информация
Общество
-Закон
-Странные истории
-Все виды
Мода
-Уличные фотографии
-Визуальные эффекты
-Информация
Спорт
Здоровье
-Массаж
-Здравоохранение
-Похудение
-Красота
-Питание
-Традиционная китайская медицина
Игры
-Руководства
-За рубежом
-Персонажи
-Периферия
-Информация
Воспитание детей
-Здоровье ребёнка
-Детское питание
-Подготовка к родам
-Послеродовой период
-Воспитание знаменитостей
-Материнство и младенчество
-Освещение в СМИ
-Детские сады
-Игры
-Период воспитания
-Информация
Развлечения
Государственное управление
-Ведомства
Вы можете посетить demo2/index.php через браузер.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )