Des modèles d’IA personnalisés dans GitHub Copilot

GitHub a annoncé la disponibilité de modèles personnalisés pour les clients de Copilot Enterprise. L’idée ici est de personnaliser l’expérience de l’IA afin qu’elle s’aligne mieux à des pratiques de codage spécifiques et des langages de programmation. Selon GitHub, ce réglage fin améliore la pertinence et la qualité des suggestions de code.

GitHub a qualifié ces modèles personnalisés de :

“prochaine grande avancée en matière de personnalisation. En formant ces modèles sur la base de code de votre organisation et en tenant compte de la télémétrie relative à l’utilisation des suggestions de Copilot par vos développeurs, ces modèles optimisés peuvent offrir des résultats nettement meilleurs ».

L’idée est de mieux fonctionner avec des modules internes existant à l’entreprise, à des fonctions, ou des langages rares tels que les langages hérités ou propriétaires, et bibliothèques diverses en fournissant des suggestions de code qui ne sont pas seulement syntaxiquement correctes, mais également alignées avec le style et les standards de codage de de l’entreprise.

Pour élaborer ces modèles, GitHub utilise une méthode appelée “Low-Rank Approximation” (LoRA). L’avantage principal de cette méthode pour les organisations est que l’entraînement est plus rapide et plus économique que les techniques traditionnelles de réglage fin. De plus, la méthode LoRA intègre des informations sur la manière dont votre équipe interagit avec les suggestions de Copilot.

L’un des principaux sujets de préoccupation concernant l’IA générative est la collecte des données. Contrairement aux services comme Gemini et ChatGPT qui enregistrent les entrées des utilisateurs généraux pour améliorer leurs services, GitHub Copilot assure la sécurité des données avec ses modèles personnalisés (dans le cadre de l’abonnement Github copilot entreprise). Les données ne sont jamais utilisées pour entraîner le modèle d’un autre client, et votre modèle personnalisé reste privé, ouf…

GitHub indique :

“Lorsque vous lancez un processus d’entraînement, les données de votre référentiel et les données de télémétrie sont tokenisées et temporairement copiées dans le pipeline d’entraînement d’Azure. Certaines de ces données sont utilisées pour l’entraînement, tandis qu’un autre ensemble est réservé pour la validation et l’évaluation de la qualité. Une fois le processus de réglage fin terminé, le modèle subit une série d’évaluations de qualité pour garantir qu’il surpasse le modèle de base. Cela inclut des tests par rapport à vos données de validation pour confirmer que le nouveau modèle améliorera les suggestions de code spécifiques à vos référentiels.

Si votre modèle réussit ces contrôles de qualité, il est déployé sur Azure OpenAI. Cette configuration nous permet d’héberger plusieurs modèles LoRA à grande échelle tout en les maintenant isolés les uns des autres au niveau du réseau. Après l’achèvement du processus, vos données d’entraînement temporaires sont supprimées de toutes les surfaces, et le flux de données reprend via les canaux d’inférence normaux. Les services proxy de Copilot garantissent que le modèle personnalisé correct est utilisé pour les complétions de code de vos développeurs.”

Ces modèles personnalisés sont actuellement en version bêta publique limitée, et GitHub invite progressivement les clients de sa liste d’attente. Si vous souhaitez vous inscrire sur cette liste d’attente, vous pouvez le faire ici.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.