1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/DetaChina-DetaParser

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 22 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 28.11.2024 01:04 5b16bc2

Текст запроса представляет собой описание различных функций и возможностей программного обеспечения, разработанного автором по имени 罗瑶光 (Luo Yaoguang).

В запросе содержится информация о разработке алгоритмов для обработки текста на китайском языке, включая функции анализа и обработки данных, а также оптимизации производительности.

Основной язык текста запроса — китайский. В запросе присутствуют элементы технического стиля, такие как термины и описания алгоритмов. Также в тексте есть ссылки на различные ресурсы и примеры кода.

Перевод текста с китайского языка на русский может быть неточным из-за особенностей перевода технических терминов и описаний алгоритмов.

Текст запроса:

Cơ sở dữ liệu tiếng việt chuẩn hoàn thành, không tối ưu hóa phiên bản。

11 : คลังข้อความภาษาไทยขนาดใหญ่สำหรับการปรับรุ่นเสร็จสมบูรณ์。


Уже реализованы следующие функции:

  • Впервые применена архитектура VPC для обеспечения высокой скорости вызова функций при регистрации большого количества потоков. Автор: 罗瑶光.
  • Поддержка параллельных вычислений для больших объёмов данных, вызовов интерфейсов и синхронных операций через чистые виртуальные интерфейсы. Автор: 罗瑶光.
  • Пройдена сертификация SONAR высшего уровня: восприятие, семантика, грамматика, поведение и логика. Автор: 罗瑶光.
  • Простота расширения словаря на основе форматированной линейной базы данных. Автор: 罗瑶光.
  • Удобство поиска слов на основе индексирования с использованием рекурсивного алгоритма и взвешенного словаря. Автор: 罗瑶光.
  • Быстрый поиск слов на основе бинарного поиска, евклидова расстояния и хеширования символов. Автор: 罗瑶光.
  • Точное сопоставление слов на основе деревьев решений и прямого-обратного алгоритма Маркова. Автор: 罗瑶光.
  • Высокая скорость частотного анализа слов на основе улучшенной версии быстрой сортировки. Автор: 罗瑶光.

Также реализованы следующие функции:

  • Скорость: до 2,2 миллиона китайских иероглифов в секунду для точного разделения слов. Благодаря международной сертификации SONAR, скорость выполнения программы была снижена на треть. Тестирование проводилось на компьютере с операционной системой Windows 7, 64-битной архитектурой, 16 ГБ оперативной памяти и процессором Intel i5-7500. Дата тестирования: 8 декабря 2018 года. Автор: 罗瑶光.
  • Смешанное разделение китайских и английских слов с максимальной скоростью до 2,7 миллиона в секунду. Дата реализации: 12 апреля 2019 года. Автор: 罗瑶光.
  • Индексирование китайских слов с частотой до 900 тысяч слов в секунду. Автор: 罗瑶光.
  • Разделение функций на сегментирование и анализ слов для параллельного использования. Автор: 罗瑶光.
  • Словарь содержит более 26 300 китайских слов и фраз для точного распознавания новых слов. Автор: 罗瑶光.
  • Многоядерная поддержка: возможность использования parallelStream() для реализации многопоточности. CogsBinaryForestAnalyzer поддерживает безопасность при параллельном выполнении задач. Автор: 罗瑶光.
  • Безопасность: архитектура VPC использует чистые виртуальные функции для обратного отображения и пропуска IOC, что повышает эффективность и обеспечивает высокую степень безопасности потоков. Автор: 罗瑶光.
  • Частичный перевод коротких предложений с китайского на английский. Автор: 罗瑶光.
  • Смешанное разделение китайских и английских слов. Максимальная скорость до 3 миллионов в секунду. Автор: 罗瑶光.
  • Анализ ошибок в предложениях. Автор: 罗瑶光.
  • Эволюция VPC до VPCS, ускорение разделения слов на 100 тысяч в секунду. Автор: 罗瑶光.
  • Система ввода словарных данных на 12 языках. Автор: Mr.Yaoguang.Luo. Дата: 10 марта 2019 года.
  • Оптимизация сериализации первого корпуса леса для последовательного анализа, что привело к удвоению скорости генерации ядер ICA. Дата: 20 марта 2019 года. Автор: 罗瑶光.
  • Постепенное улучшение разделения сложных и неоднозначных предложений. Автор выражает благодарность за предоставленные тестовые примеры.

Тема вторая: анализ чувств

  • Запущен проект «Тьюринг» для осознания. Дата: 13 марта 2019 года. Автор: 罗瑶光.
  • Улучшение алгоритма генерации тренировочных наборов для ядра ICA. Дата: 17 марта 2019 года. Автор: 罗瑶光.
  • Использование функций RNN на основе статистики Байеса для калибровки функций и корректировки глаголов. Дата: 19 марта 2019 года. Автор: 罗瑶光.
  • Оценка образования Роша с помощью анализа результатов на основе ANN. Дата: 23 марта 2019 года. Автор: 罗瑶光.
  • Завершено улучшение анализа сложных предложений на основе двустороннего алгоритма Маркова для определения частей речи. Автор: 罗瑶光.
  • Эмоциональная база данных слов первой версии без исправлений. Автор: 罗瑶光.
  • На основе матрицы HMM проводится нормализация, затем выполняется неоптимизированная простая тренировка ANN с уменьшением карты. Автор: 罗瑶光. Тема три: Контекст

На основе среды, ситуации, мотива, цели, склонности и оценки прогнозирования проводится анализ шестого чувства естественного языка. Автор функции: Яогуан Луо.

Тема четыре: Интеллект

Представлена обновлённая версия техники чтения мыслей Роша.

Основанная на ANN (суммирование, эмоции, мотивация, среда) RNN (Covex, Euclid, POS) = DNN (LWA, энтропия) техника чтения мыслей Роша была обновлена и оптимизирована с помощью оператора Тьюринга. 20190314 Автор функции: Яогуан Луо.

В настоящее время разрабатывается система обучения, которая будет анализировать около 700 000 слов в секунду.

Также разрабатываются системы для анализа литературных произведений и оценки их качества.

Разрабатывается коммерческая система, которая позволит анализировать капитал, потребление и покупательную способность.

Запущен проект по переводу текстов с китайского на английский с использованием искусственного интеллекта.

Функции:

  • Тестирование модулей.
  • Коммерческое приложение.
  • Написание документации.

Использование:

Требуется Java JDK 8 или выше. Используется кодировка UTF-8. Плагины и дополнительные ресурсы не требуются.

Пример использования анализатора:

  1. Создание экземпляра анализатора.
Analyzer analyzer = new CogsBinaryForestAnalyzerImp();
  1. Инициализация анализатора.
analyzer.initMixed();
  1. Создание строки в формате UTF-8.
String ss = "Если начинать с лёгкого, то это будет непринуждённо, и весь мир будет равен этому. Он сказал, что это действительно разумно — бежать в направлении моря на юг. Он неженатый монах, который говорит о повышении качества продукции. Медицина внутренних болезней является основой клинической медицины.";
  1. Выполнение анализа строки.
List<String> sets = analyzer.parserString(ss);
``` **Текст запроса:**

List<String> sets = analyzer.parserMixedString(ss);  
######   //5 输出
    int j=0;
        for(int i = 0; i < sets.size(); i++){
            System.out.print(sets.get(i)+" | ");
            j++;
            if(j>25) {
                j=0;
                System.out.println("");
            }
        }
###### //6 效果
如果  |  从  |  легко  |  начало  |  поэтому  |  не спеша  |  мир  |  равно  |  правда  |  здравый смысл  |  дела  |  обязательно  |  для  |  талант  |  вдоль  |  хайнань  |  направление  |  убежать  |  он  |  сказал  |  действительно  |  разумно  |  жениться  |  его  |  и  |  еще не  |  женился  |  его  |  повысить  |  продукт  |  качество  |  зарубежный  |  наука  |  классика  |  медицинская наука  |  это  |  клиническая  |  медицина  |  его  |  основа  |     |  медицинская наука  |  как  |  клиническая  |  медицина  |  его  |  основа  |  дисциплина  |  
,  |  акцент  |  дискуссия  |  тело человека  |  различные  |  система  |  разные  |  болезни  |  их  |  причина  |  ,  |  заболеть  |  механизм  |  ,  |  клинический  |  проявление  |  
,  |  диагностика  |  ,  |  лечение  |  с  |  профилактика  |   
## POS 词性分析如下:
######   //1 实例化
        //Analyzer analyzer = new CogsBinaryForestAnalyzerImp();  //хеш-лес индекс многоядерный многопоточный безопасный поддерживает параллелизм
        Analyzer analyzer = new BinaryForestAnalyzerImp();  //хеш-лесной индекс однопоточный
        //Analyzer analyzer = new FastAnalyzerImp();        //быстрый линейный индекс однопоточный
        //Analyzer analyzer = new PrettyAnalyzerImp();      //линейный лесной индекс однопоточный
        //Analyzer analyzer = new BaseAnalyzerImp();        //одномерный линейный индекс
        //Analyzer analyzer = new ScoreAnalyzerImp();       //лесная оценка индекса
######   //2начальный
    //analyzer.init();
    analyzer.initMixed(); 象形 契形混分初始
    Map<String, String> pos = analyzer.getWord();
######   //3 创建字符串 utf 8
    String ss = "Он сказал действительно разумно жениться его и ещё не женился его повысить качество продукта зарубежная наука классика медицинская наука это клиническая медицина его основа медицинская наука как клиническая медицина его основа дисциплина  
, акцент дискуссия тело человека различные система разные болезни их причина , заболеть механизм , клинический проявление , диагностика , лечение с профилактика ";
######   //4 执行
    //List<String> sets = analyzer.parserString(ss); 
    List<String> sets = analyzer.parserMixedString(ss); 
######   //5 输出
    int j=0;
        for(int i = 0; i < sets.size(); i++){
            System.out.print(sets.get(i)+"/"+pos.get(sets.get(i)) +"  ");
            j++;
            if(j>8) {
                j=0;
                System.out.println("");
            }
        }
###### //6 эффект:
Он/местоимение сказал/глагол действительно/наречие разумно/наречие жениться/глагол его/притяжательное местоимение и/союз ещё не/наречие женился/глагол его/притяжательное местоимение повысить/глагол качество/существительное продукта/существительное зарубежная/прилагательное наука/существительное классика/существительное медицинская/прилагательное наука/существительное это/местоимение клиническая/прилагательное медицина/существительное его/притяжательное местоимение основа/существительное медицинская/прилагательное наука/существительное как/союз клиническая/прилагательное медицина/существительное его/притяжательное местоимение основа/существительное дисциплина/существительное  
,/запятая акцент/существительное дискуссия/существительное тело/существительное человека/существительное различные/прилагательное система/существительное разные/прилагательное болезни/существительное их/притяжательное местоимение причина/существительное ,/запятая заболеть/глагол механизм/существительное ,/запятая клинический/прилагательное проявление/существительное ,/запятая диагностика/существительное ,/запятая лечение/глагол с/предлог профилактика/существительное   

**Перевод текста на русский язык:**

Список<String> sets = analyzer.parserMixedString (ss);
######  //5 вывод
int j = 0;
for (int i = 0; i < sets.size (); i++) {
System.out.print (sets.get (i) + «|»);
j++;
if (j > 25) {
j = 0;
System.out.println («»);
}
}
###### //6 результат
Если | от | легко | начало | поэтому | не спеша | мир | равно | правда | здравый смысл | дела | обязательно | для | талант | вдоль | хайнань | направление | убежать | он | сказал | действительно | разумно | жениться | его | и | еще не | женился | его | повысить | продукт | качество | зарубежный | наука | классика | медицинская наука | это | клиническая | медицина | его | основа | | медицинская наука | как | клиническая | медицина | его | основа | дисциплина |
, | акцент | дискуссия | тело человека | различные | система | разные | болезни | их | причина |, | заболеть | механизм |, | клинический | проявление |
, | диагностика |, | лечение | с | профилактика |
## Анализ POS-тегов:
######  //1 экземпляр
//Analyzer analyzer = new CogsBinaryForestAnalyzerImp (); //хеш-лес-индекс многоядерный многопоточный безопасный поддерживает параллельность
Analyzer analyzer = новый BinaryForestAnalyzerImp (); //хеш-лесный индекс однопоточный
//Analyzer analyzer = new FastAnalyzerImp (); //быстрый линейный индекс однопоточный
//Analyzer analyzer = new PrettyAnalyzerImp (); //линейный лесной индекс однопоточный
//Analyzer analyzer = new BaseAnalyzerImp (); //одномерный линейный индекс
//Analyzer analyzer = new ScoreAnalyzerImp (); //лесная оценка индекса
######  //2 начальный
//analyzer.init ();
analyzer.initMixed (); 象形 契形混分 начальный
Map <String, String> pos = analyzer.getWord ();
######  //3 создание строки utf 8
String ss = «Он сказал действительно разумно жениться его и еще не женился его повысить качество продукта зарубежная наука классика медицинская наука это клиническая медицина его основа медицинская наука как клиническая медицина его основа дисциплина, акцент дискуссия тело человека различные системы разные болезни их причины, заболеть механизмом, клиническим проявлением, диагностикой, лечением с профилактикой»;
######  //4 выполнение
//List <String> sets = analyzer.parserString (ss);
List <String> sets = analyzer.parserMixedString (ss);
######  //5 вывод
int j = 0;
for (int i = 0; i < sets.size (); i ++) {
System.out.print (sets.get (i) + "/" + pos.get (sets.get (i)) + "  ");
j++;
if (j > 8) {
j = 0;
System.out.println ("");
}
}
###### //6 эффект:
Он / местоимение сказал / глагол действительно / наречие разумно / наречие жениться / глагол его / притяжательное местоимение и / союз еще не / наречие женился / глагол его / притяжательное местоимение повысить / глагол качество / существительное продукта / существительное зарубежная / прилагательное наука / существительное классика / существительное медицинская / прилагательное наука / существительное это / местоимение клиническая / прилагательное медицина / существительное его / притяжательное местоимение основа / существительное медицинская / прилагательное наука / существительное как / союз клиническая / прилагательное медицина / существительное его / притяжательное местоимение основа / существительное дисциплина / существительное, акцент, дискуссия, тело, человек, различные, система, разные, болезни, их, причина, , заболеть, механизм, , клинический, проявление, , диагностика, , лечение, с, профилактика

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/DetaChina-DetaParser.git
git@api.gitlife.ru:oschina-mirror/DetaChina-DetaParser.git
oschina-mirror
DetaChina-DetaParser
DetaChina-DetaParser
master