ChatBELLE 跨平台应用

English Version

基于BELLE模型的跨平台离线大语言模型交谈App。使用量化后的离线端上模型配合Flutter，可在macOS（已支持）、Windows、Android、iOS(参考Known Issues)等设备上运行。

下图是一个可以使用App在设备端本地运行4bit量化的BELLE-7B模型，在M1 Max CPU上实时运行的效果（未加速）：

App下载

请见Releases。

各平台对应下载&使用说明请见使用说明。

目前仅支持macOS。更多平台即将发布！

模型下载

可以去huggingface下载，ChatBELLE-int4

需要先首先执行ChatBELLE app，会建好一个文件夹~/Library/Containers/com.barius.chatbelle。然后将下载好的模型重命名并移动至app显示的路径。默认为~/Library/Containers/com.barius.chatbelle/Data/belle-model.bin。

模型量化

使用llama.cpp的4bit量化优化设备端离线推理的速度和内存占用。量化会带来计算精度的损失，影响模型的生成效果。4bit是比较激进的量化方式，目前的4bit模型效果相比fp32和fp16还有明显差距，仅供尝试。随着模型算法的发展和设备端算力的演进，我们相信离线推理的效果会有很大改善，我们也会持续跟进。

GPTQ

GPTQ使用one-shot量化方式来获得更小的量化损失或更高的压缩率。我们将持续跟进基于GPTQ的设备端量化模型。

路线图

更多设备
多轮对话
模型选择
聊天历史
聊天列表

使用说明

macOS

建议使用M1/M2系列芯片配合16G RAM以获得最佳体验。如果推理速度过慢，可能是内存不足，可以尝试关闭其他app以释放内存。8G内存会非常慢。 Intel芯片理论上也可以跑，但是速度较慢。

下载Releases中的chatbelle.dmg，双击打开，把Chat Belle.dmg左键拖进应用程序文件夹中。
右键应用程序文件夹中的Chat BelleApp，按住Ctrl并左键单击打开，点打开。
App会显示模型加载失败，并显示模型路径。关闭App。
下载量化后的模型ChatBELLE-int4。
移动并重命名模型至app显示的路径。默认为~/Library/Containers/com.barius.chatbelle/Data/belle-model.bin。
重新打开App（直接双击）。

Windows

敬请期待

Android

敬请期待

iOS

敬请期待

已知问题

推理在8GB内存的macOS设备上会非常慢，原因是内存不足导致疯狂swapping。16GB内存的设备在内存占用较高的情况下也可能遇到同样状况。
推理在Intel芯片的Mac设备上比较慢。
iOS的3GB App内存限制导致最小模型(~4.3G)也无法加载。参考

免责声明

本程序仅供学习、研究使用，因使用、传播本程序带来的任何损害，本程序的开发者不负任何责任。

致谢

LLaMa模型设备端推理 llama.cpp
Flutter聊天UI flyer.chat

OSCHINA-MIRROR/mirrors-belle

ChatBELLE 跨平台应用

App下载

模型下载

模型量化

GPTQ

路线图

使用说明

macOS

Windows

Android

iOS

已知问题

免责声明

致谢

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-belle .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

ChatBELLE 跨平台应用

App下载

模型下载

模型量化

GPTQ

路线图

使用说明

macOS

Windows

Android

iOS

已知问题

免责声明

致谢

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-belle