Comme faire tourner son propre ChatGPT local depuis son GPU Nvidia

Vous avez probablement remarqué que les outils d’IA générative comme Google Gemini et ChatGPT s’introduisent toujours davantage dans nos vies. Ces outils reposent sur des grands modèles de langage (LLM), des réseaux entraînés sur d’énormes quantités de données pour pouvoir produire du texte, des images ou même des vidéos réalistes. Vous n’avez pas besoin d’une app dans le cloud pour accéder à ces LLM, la chose est possible sur votre propre ordinateur. Vous pouvez ainsi en profiter sans avoir de connexion et vous n’aurez pas à craindre que vos prompts et conversations arrivent chez Google ou OpenAI. Nvidia a lancé sa propre application LLM local, utilisant la puissance des cartes graphiques RTX 30 et RTX 40, baptisée Chat with RTX. Voici comment en profiter.

Comment démarrer

Avant de démarrer, assurez-vous d’avoir les derniers drivers de votre carte graphique, l’app GeForce Experience peut aider pour cela, puis allez sur la page de téléchargement de Chat with RTX. Pour lancer l’outil, il faut Windows 11, une carte GeForce RTX 30/40 ou RTX Ampere ou Ada avec au moins 8 Go de VRAM et 16 Go de RAM.

Gardez aussi à l’esprit que NVIDIA qualifie cette app de “démo”. Autrement dit, elle n’est pas totalement finalisée, il peut y avoir des bugs. Le téléchargement est aussi assez imposant, 35 Go, parce que plusieurs LLM sont intégrés. Enfin, l’installation prend un certain temps avant d’arriver à son terme.

Lorsque vous en aurez terminé, l’application Chat with RTX sera ajouté à votre menu Démarrer. Lancez-la et après un instant, l’interface va apparaître dans votre navigateur web par défaut. Dans le coin supérieur gauche, vous pourrez sélectionner le modèle IA source : Mistral ou Llama. Une fois fait, vous pouvez envoyer vos prompts comme vous le faites avec ChatGPT ou Google Gemini.

Si vous avez déjà utilisé un LLM, vous savez de quoi ces moteurs d’IA générative sont capables : rédaction d’email, documents, messages et autre, résumé de sujets complexes, réponse à des questions complexes, etc.

Les règles standard s’appliquent, essayez d’être aussi précis que possible et ne prenez pas pour argent comptant les réponses fournies. Chat with RTX ne pouvant rechercher les informations les plus actuelles sur le web, cet outil n’est pas une bonne solution pour obtenir des réponses à jour temporellement, mais vous aurez une réponse basée sur les données présentes dans ses données, peu importe leur date.

En bas de l’interface, vous trouverez un bouton pour générer une nouvelle réponse depuis le dernier prompt, un bouton “annuler” (pour revenir à l’ancien prompt) et un bouton pour effacer la conversation, ce qui viendra effacer l’historique pour pouvoir tout recommencer. À l’heure actuelle, il n’est pas possible d’exporter les réponses autrement qu’en copiant et collant le texte.

Ajouter ses propres données et des vidéos YouTube

Chat with RTX propose certaines fonctions très intéressantes, dont la possibilité de baser ses réponses sur les documents que vous lui fournissez. Dans la section Dataset, sélectionnez Folder Path, puis indiquez le dossier contenant les documents que vous souhaitez faire consommer.

L’app va alors scanner le dossier en question, ce qui peut prendre un certain temps, et vous pourrez lui transmettre vos prompts. Le bot va scanner le texte à la recherche de réponses appropriées et citera même le ou les fichiers utilisés. Vous pouvez demander des résumés, vérifier des faits ou faire générer un nouveau texte sur les textes fournis.

On le répète, il s’agit là d’une première ébauche d’une technologie connue pour ne pas être 100% véridique. Cependant, c’est un outil très plaisant avec lequel jouer et auquel vous pouvez fournir vos propres données.

Chat with RTX peut aussi analyser des vidéos YouTube et proposer des réponses basées sur leurs transcriptions (en utilisant celles-ci si elles existent ou en les générant automatiquement si ce n’est pas le cas). Cela fonctionne même avec des playlists entières, le logiciel va alors fouiller dans toute une série de vidéos en même temps.

Sélectionnez YouTube URL comme Dataset, puis collez l’adresse de la vidéo ou de la playlist. Si vous travaillez avec une playlist, vous pouvez spécifier le nombre de vidéos que vous souhaitez inclure. Enfin, cliquez sur le bouton de téléchargement sur la droite et Chat with RTX va télécharger et récupérer et/ou générer les transcriptions.

Comme avec la fonctionnalité de scan de documents, cela peut être très pratique pour obtenir des résumés ou extraire les informations importantes, mais c’est, actuellement en tous les cas, la fonction la moins aboutie du programme. L’app se perd souvent quant à la vidéo à laquelle elle fait référence, mais si vous avez besoin de réponses rapides au sujet de vidéos ou playlists longues que vous n’avez pas le temps de regarder, Chat with RTX peut aider.

Lire la source

Comme faire tourner son propre ChatGPT local depuis son GPU Nvidia

Comment démarrer

Ajouter ses propres données et des vidéos YouTube

A lire aussi