Sur la base du grand modèle de l'IA, construisez des interactions émotionnelles délicates qui peuvent être perçues par les consommateurs
Grâce aux capteurs tactiles, aux microphones, aux caméras et aux capteurs de détection infrarouge recouvrant la tête et inversement, il peut percevoir l'environnement environnant et interagir avec l'environnement environnant.
Fusion de la saisie vocale et de la saisie visuelle (en se concentrant sur des images statiques), à l'aide d'un « texte-image multimodal »
grand modèle" pour produire des conversations
Les capteurs et microphones de détection infrarouge détectent les activités biologiques et interagissent activement avec
utilisateurs
Expression émotionnelle multimodale via des moteurs pas à pas du corps et des mains, un écran LCD (yeux) et haut-parleurs
Dialogue en langage naturel
Emplacement relativement fixe, faibles exigences de mobilité, connexion à long terme au chargeur
| ASR + LLM Compréhension des images visuelles Événements tactiles Minuterie infrarouge Mémoire de dialogue Paramètres des personnages |
| Plateforme de modèles à grande échelle basée sur le cloud et en réseau (Perception multimodale, grand modèle de langage, mémoire conversationnelle, requête réseau) |
| Couche du système de perception et de contrôle multimodal | |||
| Compréhension de la scèneContrôle du déclencheur | Contrôle de l'éclairage | Contrôle du moteur | Contrôle de l'affichage |
| Couche d'intégration matérielle (corps du robot) | ||||
Scène
compréhensionContrôle du déclencheur |
Éclairage
Contrôle |
Contrôle du moteur |
Affichage
Contrôle |
Affichage
Contrôle |
| Appareil | Spécifications/caractéristiques |
| Microphone | Prend en charge la reconnaissance vocale en champ lointain (portée de 5 mètres) et la capture sonore directionnelle pour la réception commandes vocales. |
| Caméra | Utilisé pour la reconnaissance de l'environnement et des objets. |
| Capteur infrarouge | Utilisé pour le réveil à faible puissance déclenché par le corps humain/animal de compagnie. |
| Capteur tactile | Des modules tactiles distribués (tête, dos, abdomen) sont utilisés pour détecter les caresses et les tapotements (tels que "toucher la tête" et "chatouiller"). |
| Capteur de gravité | Détectez l'état de mouvement du corps et déclenchez un « signal de détresse » (comme un message vocal « Je suis tombé et ça fait mal") lorsque le produit tombe. |
| Appareil | Spécifications/caractéristiques |
| Écran d'expression LCD | Écran LCD de 4,28 pouces (yeux), prend en charge l'affichage d'expression dynamique et l'affichage binoculaire (tels que retour visuel lorsque vous « faites le mort » ou « agissez de manière mignonne »). |
| Conférencier | Mono/4Ω, haut-parleur large bande 5 W (comme la sortie vocale lorsque « chanter une chanson » ou « raconter une blague »). |
| Bandes lumineuses LED en couleur | Des bandes lumineuses colorées qui jouent des effets d'éclairage pertinents sur « l'état émotionnel » ou peuvent être utilisées comme voyants lumineux. |
| Appareil | Spécifications/caractéristiques |
| Moteur pas à pas | Deux moteurs pour agiter et tourner la tête (taille) |
| Appareil | Spécifications/caractéristiques |
| Puce de contrôle principale | V821 : contrôle des fonctions de base, traitement vocal, affichage binoculaire asynchrone |
| Wi-Fi/Bluetooth | Wi-Fi 2,4G + Bluetooth |
| Unité de stockage | NAND FLASH 256 Mo, 64 Mo DRAM |
| Appareil | Spécifications/caractéristiques |
| Batterie au lithium | Plateforme de modèles à grande échelle basée sur le cloud et en réseau (Perception multimodale, grand modèle de langage, mémoire conversationnelle, requête réseau) |
| Charge | USB type-C |
| Modules accessoires | Différents styles de vêtements et d'accessoires peuvent être modifiés |
| en colère | roule les yeux | s'évanouir | agis cool |
| enthousiasme | triste | maladroit | timide |
| rire aux éclats | sourire | yeux de coeur | attendre |
| dormir | mignon | lésé | Moteur pas à pas |
| hébéter | curieux | louche | mal |