1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/lionsoul-friso

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
CHANGES.md 13 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 01.12.2024 15:18 434fa6c

Friso 1.6.3 (будущая версия):

  1. Фильтр токенов Sphinx.

  2. Сложное вторичное разделение китайского языка.

  3. Поддержка Autotools.

  4. Поддержка Friso deb и rmp: Debian & Ubuntu: sudo apt-get install libfriso0 libfriso-dev; CentOS & Fedora: sudo yum install libfriso libfriso-devel.

  5. Пометка частей речи для китайского языка.

  6. Распознавание китайских цифр.

  7. Преобразование китайских цифр в арабские.

  8. Распознавание имён собственных.

  9. Автоматическое обновление словарной базы.

Friso 1.6.2 (текущая версия) — сделано.

  1. Исправлена утечка памяти, результат теста:
lionsoul@lionsoul-ThundeRobot:/Code/C/friso/src$ valgrind --tool=memcheck --leak-check=full friso -init ../friso.ini 
==6752== Memcheck, a memory error detector
==6752== Copyright (C) 2002-2015, and GNU GPL'd, by Julian Seward et al.
==6752== Using Valgrind-3.11.0 and LibVEX; rerun with -h for copyright info
==6752== Command: friso -init ../friso.ini
==6752== 
Initialized in 1.620453sec
Mode: Complex
+-Version: 1.6.2 (UTF-8)
+-----------------------------------------------------------+
| friso - a chinese word segmentation writen by c.          |
| bug report email - chenxin619315@gmail.com.               |
| or: visit http://code.google.com/p/friso.                 |
|     java edition for http://code.google.com/p/jcseg       |
| type 'quit' to exit the program.                          |
+-----------------------------------------------------------+
friso>> 研究生命起源
分词结果:
研究 琢磨 研讨 钻研 生命 起源 
Done, cost < 0.027772sec
friso>> quit
Thanks for trying friso.
==6752== 
==6752== HEAP SUMMARY:
==6752==     in use at exit: 0 bytes in 0 blocks
==6752==   total heap usage: 555,930 allocs, 555,930 frees, 18,237,934 bytes allocated
==6752== 
==6752== All heap blocks were freed -- no leaks are possible
==6752== 
==6752== For counts of detected and suppressed errors, rerun with: -v
==6752== ERROR SUMMARY: 0 errors from 0 contexts (suppressed: 0 from 0)

Friso 1.6.1:

  1. В файле friso.ini добавлена поддержка относительного пути к файлу friso.lex_dir. — сделано.

  2. Исправлено две утечки памяти. — сделано.

  3. Улучшено распознавание слов, состоящих из китайских и английских букв, например, 高3. — сделано.

  4. Оптимизирован словарь, добавлены новые слова. — сделано.

  5. Исправлено два программных дефекта в функциях friso_dic_add и array_list_insert. — сделано.

  6. Добавлена проверка режима разделения, которая возвращает только слова из словаря. — сделано.

  7. Интегрирован PHP-расширение, которое идеально поддерживает PHP-разделение. — сделано.

Friso 1.6.0:

  1. В функции friso_stirng.c#utf8_decimal_string инициализировано значение bytes = 0, устранена ошибка Run-Time Check Failed в WinNT. — сделано.

  2. Реализовано вторичное разделение сложных английских и цифровых комбинаций, таких как QQ2013, на qq2013, qq, 2013. — сделано.

  3. Поддерживается кодировка GBK. — сделано.

  4. В файл friso.ini добавлен пользовательский список знаков препинания, удалены по умолчанию знаки препинания «^,/,-,'». — сделано.

  5. Переменные заменены масками. — сделано.

  6. В результате разделения friso_hits_t улучшены возвращаемые значения для части речи и длины слова, исправлены ошибки смещения. — сделано.

  7. Проведена оптимизация, например, добавлено дополнение синонимов (обычных/sphinx), сложная логика принятия решений заменена использованием масок, что не только уменьшило объём кода, но и повысило эффективность выполнения. — сделано.

  8. Возвращается больше информации, включая часть речи, длину, реальную длину и часть речи (ожидается реализация). — сделано.

  9. Добавлен автоматический перенос файлов заголовков при установке (usr/include/friso), можно использовать include <friso/xx.h> для ссылки на файлы заголовков. — сделано.

Friso 1.5:

  1. Добавлен вывод Sphinx, синонимы разделены символом «|», например, исследование|анализ|обсуждение|углублённое исследование жизни. — сделано.

  2. Исправлены все исходные файлы tst-xxx. Файлы API были изменены после того, как тестовые образцы не были обновлены. — сделано.

  3. Исправлен дефект в функции friso.c#next_basic_latin, где комбинация «число + пробел + единица» объединяла числа и единицы без пробела. — сделано.

  4. Исправлен дефект в friso.c#next_basic_latin, где сочетание «число + китайский + пробел» приводило к искажению символов. — сделано.

  5. Внедрён friso_config_t для многоконфигурационного использования, чтобы избежать неудобств, связанных с глобальной конфигурацией. — сделано.

Friso 1.4:

  1. Не удалось распознать десятичные дроби и единицы измерения. Изменена функция friso_string#utf8_numeric_string(). — сделано.

  2. Изменено распознавание смешанных китайских и английских слов (теперь можно распознавать любые комбинации китайского и английского языков). Английский китайский: b超, английский китайский английский: a美1, английский китайский китайский: a哆啦a梦, китайский английский: 卡拉ok, китайский английский китайский: 哆啦a梦, китайский китайский английский: 中文a美a. — сделано.

  3. Изменены правила объединения единиц измерения, теперь можно объединять единицы измерения на любом языке, например, ℃,℉. — сделано.

  4. Для неизвестных символов предоставляется переключатель для определения, сохранять или фильтровать. — сделано.

  5. Добавлены английские синонимы (добавлен лексикон lex-en.lex). — сделано.

Friso 1.3:

  1. Устранены конфликты с C++ и VS (string и __value). — сделано.

  2. Некоторые простые функции используют макроопределения вместо вызовов функций, уменьшая количество вызовов функций. — сделано.

  3. Сохранено разделение английских полных и полуширинных и китайских знаков препинания (можно отключить ненужные знаки препинания через стоп-слова). Стоп-слова уже содержат все сохранённые знаки препинания. — сделано.

  4. Исправлена ошибка в функции friso_string#utf8_en_punctuation(). — сделано.

  5. Исправлена ошибка смещения результата разделения (используйте начало этого слова в качестве смещения). — сделано.

  6. Исправлена ошибка friso_lexicon#friso_dic_load. — сделано.

  7. Реализован поиск слов C++ и C# (добавлено lex-en-pun.lex). — сделано.

  8. Реализовано распознавание смешанных китайских и английских слов, например, 卡拉ok (добавлено lex-cemix.lex). — сделано.

  9. Обновлён Makefile, оптимизирована цель clean и обеспечена совместимость с компиляцией 64-битных систем. — сделано.

  10. Обновлён словарь, добавлено несколько новых слов и удалено несколько ненужных слов. — сделано.

  11. Добавлена документация по разработке Friso.pdf. — сделано. Предоставлен Makefile для Cygwin — Makefile.cygwin, для компиляции friso на системе WinNT используйте этот Makefile.

  12. Была повторно интегрирована лексическая база данных jcseg, добавлено несколько новых слов.

  13. Добавлен документ CHANGES, в документ README добавлена информация о конфигурации тестирования.

Friso-1.1:

Добавлены следующие две функции:

  1. Исправлена ошибка, которая могла привести к утечке памяти. Изменён интерфейс API, решена проблема автоматического освобождения памяти при необходимости вызова программы, автоматическое управление реализовано внутри friso_next, подробности можно найти в официальной документации.
  2. Добавлена функция разделения синонимов и реализована функция сопоставления синонимов (необходимо настроить friso.add_syn=1 в файле friso.ini).
  3. Добавлена функция фильтрации стоп-слов, добавлен новый лексический словарь lex-stopwords.lex, который специально содержит стоп-слова.
  4. Проведена оптимизация внутреннего кода friso, загрузка всей лексической базы данных требует только 13,xM памяти, а скорость разделения также увеличилась. В простом режиме она может достигать 3,8M/sec, а в сложном режиме приближается к 2,0M/sec.

Friso-1.0:

  1. Текущая последняя версия: friso 1.0, поддерживает только кодировку UTF-8.
  2. MMSEG имеет четыре алгоритма фильтрации, точность сегментации достигает 98,41%.
  3. Поддерживает пользовательские лексические базы данных. Можно свободно добавлять, удалять и изменять лексические базы данных и словарные статьи в папке dict, и лексические базы данных были классифицированы.
  4. Лексическая база данных использует упрощённую лексическую базу данных Java-версии jcseg.
  5. Поддерживается распознавание смешанных китайских и английских слов, таких как c язык, IC карта.
  6. Хорошая поддержка английского языка, электронная почта, веб-адрес, десятичные числа, дроби, проценты.
  7. Поддерживается распознавание основных единиц арабских цифр, таких как 2012 год, 5 тонн, 120 кг.
  8. Автоматическое преобразование английских букв в круглые углы/полууглы, прописные/строчные буквы.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/lionsoul-friso.git
git@api.gitlife.ru:oschina-mirror/lionsoul-friso.git
oschina-mirror
lionsoul-friso
lionsoul-friso
master