Пользователи обычно получают доступ к большим языковым моделям (LLM) с помощью пользовательского интерфейса через API. Хотя использование API дает несколько преимуществ, оно также вводит ограничения, такие как необходимость постоянного подключения к Интернету. соединение, ограниченные настройки, возможные проблемы с безопасностью и компании, ограничивающие возможности модели через платный доступ.

Благодаря квантованным LLM, теперь доступным на HuggingFace, и экосистемам ИИ, таким как H20, Text Gen и GPT4All. позволяя вам загружать веса LLM на свой компьютер, теперь у вас есть возможность бесплатного, гибкого и безопасного ИИ.

Для начала вот семь лучших локальных/автономных LLM, которые вы можете использовать прямо сейчас!

1. Гермес ГПТК

Современная языковая модель, настроенная с использованием набора данных из 300 000 инструкций, разработанного Nous Research. Hermes основан на LLM LlaMA2 от Meta и был настроен с использованием в основном синтетических выходов GPT-4.

Модель

Гермес 13b GPTQ

Размер модели

7,26 ГБ

Параметры

13 миллиардов

Квантование

4-битный

Тип

ЛлаМА2

Лицензия

Лицензия GPL 3

Использование LlaMA2 в качестве базовой модели позволяет Hermes удвоить размер контекста или максимальный размер токена 4096. Известно, что в сочетании с большим размером контекста и архитектурой кодировщика Hermes дает длинные ответы и низкий уровень галлюцинаций. Это делает Hermes отличной моделью для различных обработка естественного языка (NLP) задачи, такие как написание кода, создание контента и работа в чате.

Существует несколько квантований и версий нового Hermes GPTQ. Мы рекомендуем вам сначала опробовать модель Hermes-Llama2 13B-GPTQ, поскольку ее проще всего развернуть, но при этом она обладает высокой производительностью.

2. Сокол инструктирует GPTQ

Кредит изображения: Джон Шнобрих/Скрыть

Эта квантованная версия Falcon основана на архитектуре, состоящей только из декодера, и тонко настроена поверх необработанной модели Flacon-7b от TII. Базовая модель Falcon была обучена с использованием 1,5 трлн токенов, полученных из общедоступного Интернета. Модель Falcon Instruct, основанная только на декодировании инструкций и лицензированная под Apache 2, идеально подходит для малых предприятий, которые ищут модель для языкового перевода и ввода данных.

Модель

Сокол-7Б-Инструкт

Размер модели

7,58 ГБ

Параметры

7 миллиардов

Квантование

4-битный

Тип

Сокол

Лицензия

Апач 2.0

Однако эта версия Falcon не идеальна для тонкой настройки и предназначена только для логических выводов. Если вы хотите точно настроить Falcon, вам придется использовать необработанную модель, для которой может потребоваться доступ к оборудованию для обучения корпоративного уровня, такому как NVIDIA DGX или Ускорители искусственного интеллекта AMD Instinct.

3.GPT4ALL-J заводной

Кредит изображения: Нубельсон Фернандес/Отключить

GPT4All-J Groovy — это модель, предназначенная только для декодера, настроенная Nomic AI под лицензией Apache 2.0. GPT4ALL-J Groovy основан на оригинальной модели GPT-J, которая, как известно, отлично подходит для генерации текста. из подсказок. GPT4ALL -J Groovy был настроен как модель чата, которая отлично подходит для быстрых и креативных приложений для генерации текста. Благодаря этому GPT4All-J Groovy идеально подходит для создателей контента, помогая им в написании и творчестве, будь то поэзия, музыка или рассказы.

Модель

GPT4ALL-J заводной

Размер модели

3,53 ГБ

Параметры

7 миллиардов

Квантование

4-битный

Тип

GPT-J

Лицензия

Апач 2.0

К сожалению, базовая модель GPT-J была обучена на наборе данных только на английском языке, что означает, что даже эта точно настроенная модель GPT4ALL-J может общаться и выполнять приложения для генерации текста только на английском языке.

4.WizardCoder-15B-GPTQ

Кредит изображения: Джеймс Харрисон/Скрыть

Ищете модель, специально адаптированную для кодирования? Несмотря на значительно меньший размер, WizardCoder известен как одна из лучших моделей кодирования, превосходящая другие модели, такие как LlaMA-65B, InstructCodeT5+ и CodeGeeX. Эта модель была обучена с использованием специального метода Evol-Instruct для кодирования, который автоматически редактирует ваши подсказки, чтобы сделать их более эффективными подсказками, связанными с кодированием, которые модель может лучше понять.

Модель

WizardCoder-15B-GPTQ

Размер модели

7,58 ГБ

Параметры

15 миллиардов

Квантование

4-битный

Тип

лама

Лицензия

bigcode-openrail-м

Квантованный в 4-битную модель, WizardCoder теперь можно использовать на обычных ПК, где люди могут использовать его для экспериментов и в качестве помощника по кодированию для более простых программ и скриптов.

5. Волшебник Викуна без цензуры-GPTQ

Wizard-Vicuna GPTQ — это квантованная версия Wizard Vicuna, основанная на модели LlaMA. В отличие от большинства LLM, выпущенных для публики, Wizard-Vicuna представляет собой модель без цензуры с удаленным выравниванием. Это означает, что модель не имеет таких же стандартов безопасности и морали, как большинство моделей.

Модель

Wizard-Vicuna-30B-без цензуры-GPTQ

Размер модели

16,94 ГБ

Параметры

30 миллиардов

Квантование

4-битный

Тип

лама

Лицензия

Лицензия GPL 3

Хотя, возможно, представляет Проблема управления выравниванием AI, наличие LLM без цензуры также демонстрирует лучшее из модели, позволяя отвечать без каких-либо ограничений. Это также позволяет пользователям добавлять свое собственное выравнивание того, как ИИ должен действовать или отвечать на основе данной подсказки.

6. Орка Мини-GPTQ

Изображение предоставлено: Алекс Кондратьев/Скрыть

Хотите поэкспериментировать с моделью, обученной уникальному методу обучения? Orca Mini — это неофициальная реализация модели исследований Microsoft Orca. Он был обучен с использованием метода обучения «учитель-ученик», где набор данных был полон объяснений, а не только подсказок и ответов. Теоретически это должно привести к более умному ученику, когда модель сможет понять проблему, а не просто искать пары входных и выходных данных, как работают типичные LLM.

Модель

Орка Мини-GPTQ

Размер модели

8,11 ГБ

Параметры

3 миллиарда

Квантование

4-битный

Тип

лама

Лицензия

Массачусетский технологический институт

Всего с тремя миллиардами параметров Orca Mini GPTQ легко запустить даже на менее мощных системах. Однако эту модель не следует использовать для чего-либо профессионального, поскольку она генерирует ложную информацию, предвзятые и оскорбительные ответы. Эту модель следует использовать для обучения и экспериментов с Orca и ее методами.

7.LlaMA 2 Чат GPTQ

LlaMA 2 является преемником оригинальной LlaMA LLM, которая породила большинство моделей в этом списке. LlaMA 2 — это набор из нескольких LLM, каждый из которых обучен с использованием 7–70 миллиардов параметров. В целом, LlaMA 2 был предварительно обучен с использованием 2 триллионов токенов данных, взятых из общедоступных наборов данных инструкций.

Модель

Falcon-40B-Instruct-GPTQ

Размер модели

7,26 ГБ

Параметры

3 миллиарда

Квантование

4-битный

Тип

OpenLlaMA

Лицензия

EULA (мета-лицензия)

LlaMA 2 предназначен для использования в коммерческих и исследовательских целях. Таким образом, эту модель лучше всего использовать после тонкой настройки для повышения производительности в конкретных задачах. Эта конкретная модель GPTQ чата LlaMA 2 была точно настроена и оптимизирована для диалога на английском языке, что делает ее идеальная модель для компаний и организаций в качестве чат-бота практически без дополнительного обучения необходимый. Согласно условиям, компании, имеющие менее 700 миллионов пользователей, могут использовать LlaMA 2 без уплаты каких-либо лицензионных сборов от Meta или Microsoft.

Попробуйте локальные широкоязычные модели уже сегодня

Некоторые из перечисленных выше моделей имеют несколько модификаций по параметрам. Как правило, версии с более высокими параметрами дают лучшие результаты, но требуют более мощного оборудования, в то время как версии с более низкими параметрами генерируют результаты более низкого качества, но могут работать на более низком оборудовании. Если вы не уверены, сможет ли ваш ПК запустить эту модель, попробуйте сначала перейти на версию с более низкими параметрами, а затем продолжайте, пока не почувствуете, что падение производительности больше не является приемлемым.

Поскольку квантованные модели в этом списке занимают всего несколько гигабайт пространства и платформы развертывания моделей, такие как GPT4All и Text-Generation-WebUI можно легко установить с помощью их установщиков в один клик, опробование нескольких моделей и версий моделей не должно занимать много времени. много времени и усилий.

И так, чего же ты ждешь? Попробуйте местную модель сегодня!