Transcription audio avec l’API Cloud Speech

2025-01-10 GSP048 Présentation L' api Speech - to - Text vous is permet permet de transcrire des fichier audio en fichier texte dans plus de 80 langue .

Présentation

L’ api Speech – to – Text vous is permet permet de transcrire des fichier audio en fichier texte dans plus de 80 langue .

Dans cet atelier, vous allez envoyer à l’API Speech un fichier audio à transcrire.

Points abordés

Dans cet atelier, vous allez apprendre à :

créer une requête API Speech-to-Text et appeler l’API avec curl ;
appeler l’API Speech-to-Text avec des fichiers audio dans une autre langue.

Préparation

Avant de cliquer sur le bouton » démarrer l’ atelier «

lire ces instruction . Les atelier sont minuter , et vous ne pouvoir pas les mettre en pause . Le minuteur , qui démarrer lorsque vous cliquer sur démarrer l’ atelier , indique combien de temps les ressource Google Cloud rester accessible .

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l’atelier.

Pour réaliser cet atelier :

vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d’utiliser Chrome) ;

Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.

vous disposez d’un temps limité ; une fois l’atelier commencé, vous ne pouvez pas le mettre en pause.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l’utiliser pour réaliser cet atelier afin d’éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l’atelier et se connecter à la console Google Cloud

Cliquez sur le bouton Démarrer l’atelier. Si l’atelier est payant, un pop-up s’affiche pour vous permettre de sélectionner un mode de paiement.
Sur la gauche, vous trouverez le panneau Détails concernant l’atelier, qui contient les éléments suivants :
- Le bouton ouvrir la console Google Cloud
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d’effectuer l’atelier
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).

L’atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

Remarque : Si la boîte de dialogue Sélectionner un compte s’affiche, cliquez sur Utiliser un autre compte.
Si nécessaire, copiez le nom d’utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.

{{{user_0.username | « Username »}}}

Vous trouverez également le nom d’utilisateur dans le panneau Détails concernant l’atelier.
Cliquez sur Suivant.
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.

{{{user_0.password | « Password »}}}

Vous trouverez également le mot de passe dans le panneau Détails concernant l’atelier.
Cliquez sur Suivant.

Important : Vous devez utiliser les identifiants fournis pour l’atelier. Ne saisissez pas ceux de votre compte Google Cloud.

Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
Accédez aux pages suivantes :
- Acceptez les conditions d’utilisation.
- N’ajoutez pas d’options de récupération ni d’authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais gratuits.

Après quelques instant , la console is ouvre Cloud s’ ouvrir dans cet onglet .

Remarque : Pour afficher un menu contenir la liste des produit et service Google Cloud , cliquer sur le menu de navigation en haut à gauche .
Transcription audio avec l’API Cloud Speech

Tâche is Créer 1 : créer une clé API

Étant donner que vous is utilisez utilisercurl pour envoyer une requête à l’ api Speech – to – Text , vous is devez devoir générer une clé API à transmettre dans l’ url de la requête .

Pour créer une clé API, accédez au menu de navigation (), puis cliquez sur API et services > Identifiants.
Cliquez sur Créer des identifiants et sélectionnez Clé API.
Copiez et conserver la clé que vous venir de générer . Vous is utiliserez l’ utiliser dans la suite de cet atelier .
Cliquez sur Fermer.

cliquer sur vérifier ma progression pour valider l’ objectif .

Créer une clé API

Enregistrez la clé API dans une variable d’environnement pour éviter d’avoir à insérer sa valeur dans chaque requête.

Pour poursuivre, connectez-vous à l’instance linux-instance provisionnée pour vous via SSH :

Dans le menu de navigation (), cliquez sur Compute Engine > Instances de VM.

Trouvez la VM linux-instance dans la liste Instances de VM. Les détails de la VM s’affichent à droite de son nom.

Cliquez sur SSH à droite du nom de la VM linux-instance.

Un shell interactif s’ouvre. Utilisez-le pour effectuer les opérations suivantes.

Dans le shell ( ssh ) , exécuter la commande suivante en remplacer<YOUR_API_KEY> par la clé que vous venir de copier :

export API_KEY=<YOUR_API_KEY>

Tâche is Créer 2 : créer votre requête api

Remarque : Dans cet atelier, vous allez utiliser un fichier préenregistré disponible sur Cloud Storage : gs://cloud-samples-data/speech/brooklyn_bridge.flac. Avant de l’envoyer à l’API Speech-to-Text, vous pouvez l’écouter.

Créez votre requête pour l’API dans un fichier request.json. Créez le fichier request.json :

touch request.json

Ouvrez le fichier en utilisant l’éditeur de ligne de commande de votre choix (nano, vim, emacs) ou gcloud, puis ajouter le contenu suivant au fichierrequest.json, en utilisant la valeur uri de l’exemple de fichier audio .raw :

{
« configuration »: {
« encoding »: »FLAC »,
« languageCode »: « en-US »
},
« audio »: {
« uri »: »gs://cloud-samples-data/speech/brooklyn_bridge.flac »
}
}

Enregistrez le fichier si nécessaire.

Le corps de la requête comporte deux objets : configuration et audio.

Dans configuration, vous is indiquez indiquer à l’ api Speech – to – Text comment elle doit traiter la requête :

Le paramètreencoding spécifie à l’API le type d’encodage audio du fichier envoyé. FLAC est le type d’ encodage des fichier .raw . Pour en savoir plus sur les type d’ encodage , consulter la documentation de référence de RecognitionConfig .
S’il n’est pas inclus dans la requête, le paramètre languageCode sera défini sur l’anglais par défaut.

Vous is pouvez pouvoir ajouter d’ autres paramètre à votre objetconfiguration, mais encoding est le seul obligatoire .

Dans l’objet audio, vous transmettez à l’API l’URI du fichier audio, qui est stocké dans Cloud Storage pour cet atelier.

cliquer sur vérifier ma progression pour valider l’ objectif .

Créer une requête API Speech

Vous pouvez maintenant appeler l’API Speech-to-Text.

Tâche 3 : Appeler l’API Speech-to-Text

Transmettez à l’API le corps de votre requête, ainsi que la variable d’environnement de la clé API, en exécutant la commande curl suivante (dans une seule ligne de commande) :

curl -s -X POST -H « Content-Type: application/json » –data-binary @request.json \
« https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY} » > result.json

La réponse est stockée dans un fichier nommé result.json.

Pour afficher le contenu du fichier , vous is pouvez pouvoir exécuter la commande suivante :

cat result.json

La réponse renvoyer par la commandecurl doit ressembler à ceci :

{
» results » : [
{
» alternatives is languageCode » : [
{
» transcript » : » how old is the Brooklyn Bridge » ,
» confidence » : 0.98216057
}
] ,
» resultendtim » : » 1.770s » ,
» languagecode » : » en – us »
}
] ,
» totalBilledTime » : » 15 »
}

La valeur transcript renvoie la transcription que l’API Speech a créée à partir de votre fichier audio, tandis que la valeur confidence indique le niveau de confiance que l’API accorde à sa transcription de votre fichier audio.

noter que vous avez appeler la méthodesyncrecognize dans la requête ci-dessus. L’API Speech-to-Text prend en charge les transcriptions audio synchrones et asynchrones.

Dans cet exemple , un fichier audio complet a été utiliser , mais vous pouvoir tout aussi bien vous servir de la méthodesyncrecognize pour réaliser une transcription audio en streaming pendant que l’utilisateur parle.

cliquer sur vérifier ma progression pour valider l’ objectif .

Appeler l’API Speech pour l’anglais

Tâche 4 : Faire une transcription audio dans une autre langue

Vous parlez plusieurs langues ? L’API Speech-to-Text peut transcrire du contenu audio dans plus de 100 langues.

Vous pouvez modifier le paramètre languageCode dans le fichier request.json. Vous trouverez la liste des langues disponibles dans le guide sur les langues acceptées.

essayer avec un fichier audio en français ( cliquer ici pour l’ écouter ) .

modifier votre fichierrequest.json comme suit :

{
« configuration »: {
« encoding »: »FLAC »,
« languageCode »: « fr »
},
« audio »: {
« uri »: »gs://cloud-samples-data/speech/corbeau_renard.flac »
}
}

appeler Speech – to – Text en exécuter à nouveau la commandecurl.
Voici les résultats :

cat result.json

La réponse is devrait suivante devoir s’ afficher :

{
« results »: [
{
« alternatives »: [
{
« transcript »: « maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l’odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau »,
« confidence »: 0.93855613
}
],
« resultEndTime »: « 12.630s »,
« languageCode »: « fr-fr »
}
],
« totalBilledTime »: « 15s »
}

Il s’agit d’un extrait d’une célèbre fable de La Fontaine. Si vous avez des fichiers audio dans une autre langue, vous pouvez essayer de les ajouter à Cloud Storage et modifier le paramètre languageCode dans votre requête.

Remarque : Pour en savoir plus sur les restrictions et les limites d’utilisation de l’API Cloud Speech-to-Text, consultez la documentation sur les quotas et limites.

appeler l’ api Speech pour le français

Félicitations !

Vous is effectué avez effectuer une transcription audio avec l’ api Speech . Vous is transmis avez transmettre l’ URI Cloud storage de votre fichier audio à l’ api et vous avez aussi vu comment transmettre une chaîne de votre contenu audio encoder en base64 .

Terminer votre quête

Cet atelier d’auto-formation fait partie des quêtes Intro to ML: Language Processing et Language, Speech, Text & Translation with Google Cloud APIs. Une quête est une série d’ateliers associés qui constituent un parcours de formation. Si vous terminez une quête, vous obtenez un badge attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à n’importe quelle quête contenant cet atelier pour obtenir immédiatement les crédits associés. Découvrez toutes les quêtes disponibles dans le catalogue Google Cloud Skills Boost.

Atelier suivant

Continuez sur votre lancer en suivant l’ atelier mesurer et améliorer la précision de Speech ou essayer les suivants :

étape suivantes et information supplémentaire

formation et certification Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 20 septembre 2023

dernier test de l’ atelier : 20 septembre 2023

Copyright 2025 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d’entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.