Comment lire un fichier DOC avec PHP

Les programmeurs PHP cherchent souvent des moyens d'étendre les fonctionnalités de ce langage en dehors de sa zone de confort. PHP est principalement utilisé sur les systèmes d'exploitation Linux, mais les visiteurs des sites Web PHP travaillent généralement sur des systèmes Windows ou Macintosh. Un site Web conçu pour télécharger un fichier Microsoft Word à partir de ces utilisateurs peut avoir besoin d'extraire le contenu de ce fichier et de l'envoyer par courrier électronique ou de traiter son texte à l'aide d'algorithmes PHP. Mais les fichiers Microsoft Word, qui se terminent par l'extension DOC, ne sont pas natifs de Linux ou PHP. Faire le pont entre ces deux environnements informatiques est possible avec une certaine préparation.

Étape 1

Vérifiez auprès de votre hébergeur que l'accès PHP est disponible pour votre site Web. La plupart des serveurs prennent en charge PHP, mais parfois ce service nécessite une mise à niveau du compte. Vous ne pouvez pas lire un fichier DOC en utilisant PHP sans accès au compilateur.

Étape 2

Téléchargez l'utilitaire de lecture de documents Antiword MS Word (voir les références). Ce programme open source contient du matériel de programmation qui étend PHP pour la conversion DOC.

Étape 3

Décompressez l'archive Antiword pour extraire son contenu.

Étape 4

Téléchargez l'intégralité de la bibliothèque de fichiers Antiword sur le serveur Web. Placez les fichiers dans le répertoire "bin" du compte hôte. Ce répertoire est un référentiel commun pour les utilitaires et autres opérations binaires que les utilisateurs de serveurs Web doivent fréquemment exploiter.

Étape 5

Appelez le programme Antiword dans n'importe quel script PHP conçu pour lire un document DOC Microsoft Word. La commande est implémentée à l'aide d'une seule fonction. Tapez "$content = shell_exec('/usr/local/bin/antiword '.$filename);" où "$filename" correspond au nom de fichier complet du document DOC. Le contenu du fichier DOC sera lu dans la variable "$content". Ces noms de variables, commençant par le symbole "$", sont personnalisables.

Traitez la variable "$content" comme vous le souhaitez pour manipuler le contenu du fichier DOC. Une fois le DOC lu par PHP, le texte intégral du fichier est disponible pour toute forme d'activité ultérieure. Le contenu peut être envoyé par courrier électronique ou stocké dans une base de données, par exemple.