Вы можете использовать Meta's Llama 2 онлайн, но вы можете настроить и персонализировать его, если установите его на свой локальный компьютер.
Meta выпустила Llama 2 летом 2023 года. Новая версия Llama настроена на 40% больше токенов, чем исходная модель Llama, что удваивает длину контекста и значительно превосходит другие доступные модели с открытым исходным кодом. Самый быстрый и простой способ получить доступ к Llama 2 — через API через онлайн-платформу. Однако, если вы хотите получить максимум удовольствия, лучше всего установить и загрузить Llama 2 непосредственно на свой компьютер.
Имея это в виду, мы создали пошаговое руководство о том, как использовать Text-Generation-WebUI для загрузки квантованного Llama 2 LLM локально на ваш компьютер.
Зачем устанавливать Llama 2 локально
Есть много причин, по которым люди предпочитают запускать Llama 2 напрямую. Некоторые делают это из соображений конфиденциальности, некоторые — для настройки, а третьи — для работы в автономном режиме. Если вы исследуете, настраиваете или интегрируете Llama 2 в свои проекты, то доступ к Llama 2 через API может вам не подойти. Целью локального запуска LLM на вашем компьютере является снижение зависимости от
сторонние инструменты искусственного интеллекта и используйте ИИ в любое время и в любом месте, не беспокоясь об утечке потенциально конфиденциальных данных компаниям и другим организациям.С учетом сказанного, давайте начнем с пошагового руководства по локальной установке Llama 2.
Чтобы упростить задачу, мы будем использовать установщик Text-Generation-WebUI в один клик (программа, используемая для загрузки Llama 2 с графическим интерфейсом). Однако для работы этого установщика необходимо загрузить Visual Studio 2019 Build Tool и установить необходимые ресурсы.
Скачать:Визуальная Студия 2019 (Бесплатно)
- Загрузите версию программного обеспечения для сообщества.
- Теперь установите Visual Studio 2019 и откройте программное обеспечение. После открытия поставьте галочку Разработка рабочего стола на C++ и нажмите «Установить».
Теперь, когда у вас установлена программа разработки для настольных компьютеров с C++, пришло время загрузить программу установки Text-Generation-WebUI в один клик.
Шаг 2. Установите Text-Generation-WebUI
Установщик Text-Generation-WebUI в один клик — это скрипт, который автоматически создает необходимые папки и настраивает среду Conda и все необходимые требования для запуска модели AI.
Чтобы установить скрипт, загрузите установщик в один клик, нажав на Код > Скачать ZIP.
Скачать:Установщик Text-Generation-WebUI (Бесплатно)
- После загрузки извлеките ZIP-файл в нужное вам место, затем откройте извлеченную папку.
- В папке прокрутите вниз и найдите подходящую стартовую программу для вашей операционной системы. Запустите программы, дважды щелкнув соответствующий скрипт.
- Если вы используете Windows, выберите start_windows командный файл
- для MacOS выберите start_macos ракушка
- для Linux, start_linux сценарий оболочки.
- Ваш антивирус может создать предупреждение; это отлично. Подсказка — это всего лишь ложное срабатывание антивируса для запуска командного файла или сценария. Нажмите на Все равно беги.
- Откроется терминал и начнется установка. Вначале установка приостановится и спросит вас, какой графический процессор вы используете. Выберите подходящий тип графического процессора, установленного на вашем компьютере, и нажмите Enter. Для тех, у кого нет выделенной видеокарты, выберите Нет (я хочу запускать модели в режиме ЦП). Имейте в виду, что работа в режиме ЦП происходит намного медленнее по сравнению с работой модели с выделенным графическим процессором.
- После завершения настройки вы можете запустить Text-Generation-WebUI локально. Вы можете сделать это, открыв предпочитаемый вами веб-браузер и введя указанный IP-адрес в URL-адресе.
- Теперь веб-интерфейс готов к использованию.
Однако программа является лишь загрузчиком моделей. Скачаем Llama 2 для запуска загрузчика модели.
Шаг 3. Загрузите модель Llama 2.
При принятии решения о том, какая итерация Llama 2 вам нужна, необходимо учитывать немало вещей. К ним относятся параметры, квантование, оптимизация оборудования, размер и использование. Вся эта информация будет указана в названии модели.
- Параметры: Количество параметров, используемых для обучения модели. Большие параметры делают модели более производительными, но за счет производительности.
- Использование: Может быть как стандартным, так и чатом. Модель чата оптимизирована для использования в качестве чат-бота, например ChatGPT, тогда как стандартной является модель по умолчанию.
- Оптимизация оборудования: Относится к тому, какое оборудование лучше всего работает с моделью. GPTQ означает, что модель оптимизирована для работы на выделенном графическом процессоре, а GGML оптимизирован для работы на центральном процессоре.
- Квантование: Обозначает точность весов и активаций в модели. Для вывода оптимальна точность q4.
- Размер: Относится к размеру конкретной модели.
Обратите внимание, что некоторые модели могут быть устроены по-разному и даже отображать разные типы информации. Однако этот тип соглашения об именах довольно распространен в ОбниматьЛицо Библиотека моделей, так что разобраться еще стоит.
В этом примере модель можно определить как модель Llama 2 среднего размера, обученную на 13 миллиардах параметров, оптимизированную для вывода данных в чате с использованием выделенного ЦП.
Для тех, кто работает на выделенном графическом процессоре, выберите GPTQ модель, а для тех, кто использует процессор, выберите ГГМЛ. Если вы хотите общаться с моделью так же, как с помощью ChatGPT, выберите чат, но если вы хотите поэкспериментировать с моделью на полную мощность, используйте стандартный модель. Что касается параметров, знайте, что использование более крупных моделей обеспечит лучшие результаты за счет производительности. Лично я бы рекомендовал вам начать с модели 7B. Что касается квантования, используйте q4, поскольку он предназначен только для вывода.
Скачать:ГГМЛ (Бесплатно)
Скачать:GPTQ (Бесплатно)
Теперь, когда вы знаете, какая версия Llama 2 вам нужна, скачайте нужную модель.
В моем случае, поскольку я запускаю это на ультрабуке, я буду использовать модель GGML, настроенную для чата. llama-2-7b-chat-ggmlv3.q4_K_S.bin.
После завершения загрузки поместите модель в генерация текста-webui-main > модели.
Теперь, когда ваша модель загружена и помещена в папку модели, пришло время настроить загрузчик модели.
Шаг 4. Настройте Text-Generation-WebUI
Теперь приступим к этапу настройки.
- Еще раз откройте Text-Generation-WebUI, запустив команду start_(ваша ОС) файл (см. предыдущие шаги выше).
- На вкладках, расположенных над графическим интерфейсом, нажмите Модель. Нажмите кнопку обновления в раскрывающемся меню модели и выберите свою модель.
- Теперь нажмите на раскрывающееся меню Модель погрузчика и выберите АвтоGPTQ для тех, кто использует модель GTPQ и трансформаторы для тех, кто использует модель GGML. Наконец, нажмите Нагрузка чтобы загрузить вашу модель.
- Чтобы использовать модель, откройте вкладку «Чат» и начните тестирование модели.
Поздравляем, вы успешно загрузили Llama2 на свой локальный компьютер!
Попробуйте другие программы LLM
Теперь, когда вы знаете, как запустить Llama 2 непосредственно на своем компьютере с помощью Text-Generation-WebUI, вы также сможете запускать другие LLM, помимо Llama. Просто помните о правилах именования моделей и о том, что на обычные ПК можно загружать только квантованные версии моделей (обычно с точностью q4). На HuggingFace доступно множество квантованных LLM. Если вы хотите изучить другие модели, найдите TheBloke в библиотеке моделей HuggingFace, и вы найдете множество доступных моделей.