Модели с более чем 6 миллиардами параметров считаются крупными моделями. Два ключевых направления развития ChatGPT — декодер и RLHF (обучение с помощью обратной связи от человека) — должны обязательно быть поддержаны. Также он отметил, что модели диффузии основаны на архитектуре transformer, но это неверно, так как большинство таких моделей используют свёрточные нейронные сети.
Не стоит полагать, что малые модели хуже. Они легче адаптировать, в то время как большие модели требуют больше усилий для микротюнинга. Однако наличие хорошего фреймворка, который позволяет быстро создавать сети, очень важно. Именно поэтому MindSpore становится всё более популярной. Я раньше считал этот фреймворк простым, но теперь понимаю его сложность и мощь. Мне кажется, что будущее MindSpore будет ещё лучше.
Ещё одно преимущество MindSpore заключается в её использовании для научных исследований и выполнения математических вычислений. Она универсальна, предоставляя возможности не только для машинного обучения, но и для вычислений, статистики и других задач. Это называется AI для науки (AI for Science). Я сам когда-то занимался физикой и хотел бы вернуться к этому.
AI for Science может заменить такие коммерческие программы, как MATLAB и Mathematica. Похоже, что в будущем нам не придётся покупать эти дорогостоящие программы. Учителя говорят много интересного. Новый фреймворк MindSpore представляет собой сочетание PyTorch и JAX. Поэтому будущее MindSpore действительно выглядит очень перспективным.