1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mz-classifier4php

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

classifier4php

Простой классификатор на основе PHP и word2vec для автоматической классификации статей, новостей и другого контента. Проект включает в себя обучение образцов и распознавание кода.

Для токенизации используется компонент PhpAnalysis, который отличается простотой и гибкостью. Приглашаем всех желающих к совместной оптимизации и улучшению проекта.

Адрес проекта:

Код Cloud: https://gitee.com/mz/classifier4php

GitHub: https://github.com/djunny/classifier4php

Фон

Каждый поисковый движок имеет свою собственную совершенную систему классификации. Даже самые простые классификаторы могут определить тип вашего сайта. В эпоху огромного количества контента можно легко собирать и извлекать данные из интернета, но эти данные часто беспорядочны и неорганизованны. Ручная классификация может быть слишком затратной.

Автор имеет опыт работы с различными группами сайтов и вертикальными сайтами и хорошо понимает важность классификаторов.

Среда выполнения

  1. Операционная система: Windows / *nix
  2. Версия PHP: PHP 5+
  3. Зависимости PHP: PHP-mbstring
  4. Word2vec: Windows XP

Если ваша операционная система — Linux, Centos или другая, вам необходимо самостоятельно загрузить и скомпилировать word2vec (https://code.google.com/p/word2vec/). Затем измените путь выполнения word2vec в run.php:

define('EXE_WORD2VEC', 'word2vec.exe');

Система поставляется с версией word2vec для Windows.

Пример проекта 1: demo1/run.php

В проекте приведён пример, как автоматически обучить и классифицировать романы как современные или классические. Результаты тренировочного набора файлов уже доступны в каталоге source_data. Вы можете просто поместить файлы романов, которые вы хотите распознать, в каталог source_target, и они будут автоматически распознаны.

Способ запуска

Настройте путь PHP в системной переменной PATH или выполните вручную:

/path/php run.php > run.log

Результаты выполнения будут отображаться в файле run.log.

Примечание: в Windows после настройки PATH вы также можете напрямую запустить run.bat.

Пример проекта 2: demo2/index.php

Посетите этот пример через браузер и сделайте снимок экрана:

Скетч 1

Скетч 2

Этот экземпляр был обучен на миллионах данных и может использоваться непосредственно в производственной среде для классификации новостей. Он поддерживает автоматическую классификацию следующих распространённых типов новостей:

Финансы
-Страхование
-Производственная экономика
-Макроэкономика
-Инвестиционные фонды
-Управление финансами
-Бизнес
-Новые акции
-Банки
-Ценные бумаги

Недвижимость
-Сплетни
-Знаменитости
-Политика
-Эксперты
-Информация

Международные новости

Внутренние новости

Военные новости
-Гонконг, Макао и Тайвань
-Наблюдение
-Международные
-Внутренние
-Технологии
-Секретная история
-Комментарии

Технологии
-IT
-Интернет
-Бытовая техника
-Крутые игры
-Программное обеспечение
-Цифровые технологии
-Исследование
-Связь

История
-Декодирование
-Персонажи
-Литература и история
-Дикая история
-Военная история

Путешествия
-Открытие
-Руководство

Еда

Женщины
-Макияж
-Увеличение груди
-Уход за кожей
-Духи
-Пластическая хирургия

Автомобили
-Производители
-Интервью
-СМИ
-Информация

Общество
-Закон
-Странные истории
-Все виды

Мода
-Уличные фотографии
-Визуальные эффекты
-Информация

Спорт

Здоровье
-Массаж
-Здравоохранение
-Похудение
-Красота
-Питание
-Традиционная китайская медицина

Игры
-Руководства
-За рубежом
-Персонажи
-Периферия
-Информация

Воспитание детей
-Здоровье ребёнка
-Детское питание
-Подготовка к родам
-Послеродовой период
-Воспитание знаменитостей
-Материнство и младенчество
-Освещение в СМИ
-Детские сады
-Игры
-Период воспитания
-Информация

Развлечения

Государственное управление
-Ведомства

Вы можете посетить demo2/index.php через браузер.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

На основе классификатора PHP и word2vec для автоматической классификации статей, новостей и другого контента проект включает в себя обучение на выборке, распознавание кода. Для компонента токенизации используется PhpAnalysis, просто и гибко. Приглашаем всех к совместной оптимизации и доработке. Развернуть Свернуть
GPL-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/mz-classifier4php.git
git@api.gitlife.ru:oschina-mirror/mz-classifier4php.git
oschina-mirror
mz-classifier4php
mz-classifier4php
master