Autopsy pour l'analyse Windows, la recherche de mots avec SOLR et TIKA
But :
Créer un index
Chercher dans l’index
Maintenir une liste de mots
Pourquoi l’utiliser ?
Chercher des termes communs aux projets de cas courants
Chercher dans les communications qui communique avec qui
Chercher des ordinateurs qui ont pris part à certaines actions
Regex pour chercher dans les emails et urls
Autopsy pour l'analyse Windows, la recherche de mots: qu’est-ce que l’index de texte ?
Concept similaire avec l’indes de hashs
Un index texte contient une liste de mots, du texte extrait de fichiers, du texte extrait desobjets découverts dans le projet (artifacts).
Chaque mot est contenu dans un ou plusieurs documents.
On ajoute un document à un index avec des mots et un document ID sur chaque mot
Autopsy utilise Apache Solr comme moteur de recherche, populaire open source
L’index est enregistré dans le projet case
Il contient
-le nom des fichiers
-du texte issu de fichiers
-tu texte issu d’informations récoltées
L’ingest module est responsable de l’ajout de texte dans l’index
L ne prend pas en compte les fichiers connus , NSRL
Extraction intelligente : PDF vs DocX
SolR coupe le texte en mot et met à jour l’index
Autopsy se sert d’Apache Tika pour tout ce qui est fichiers communs
Supporte entre autre les formats de fichiers Office, PDF, OpenDoc, RTF, metadata d’audio, video…
Une question? Posez-la ici
Besoin d'aide sur Autopsy?
Autopsy pour l'analyse Windows, la recherche de mots: l'extraction de texte HTML
Contenu HTML sont souvent cherchés, mais les commentaires et le javascript un peu moins. Isl apparaissent à la fin de la recherche.
Une question? Posez-la ici
Besoin d'aide sur Autopsy?
Autopsy pour l'analyse Windows, la recherche de mots: l'extraction des chaines
Si le type de fichier n’est pas connu de Tika (ou est corrompu) une extraction générique est utilisée
Recherche d’octets pouvant former une chaine dans certaines lanages
Deux paramètres :
Encodages
Langages
Plus on ajoute d’encodages et de langages, moins on a de faux positifs
Dans les outils , options
Une question? Posez-la ici
Besoin d'aide sur Autopsy ?
Autopsy pour l'analyse Windows, la recherche de mots: normalisation du texte
Autopsy va rendre toutes les recherches insensibles à la casse, et normaliser les sequences unicode
Les accents, les langages asiatiques sont pris en compte.
Autopsy pour l'analyse Windows, la recherche de mots: types de mots et de listes
On peut chercher
Le mot exact (par defaut) : « ear » n’est valable que pour la recherche « ear », par contre en cherchant « ear » on ne trouvera pas « bear » .
Des parties du mot : en cherchant « ear », on trouvera « bear »
Des expressions régulières
On peut regrouper les mots dans des listes, pour les partager avec des collègues, et s’en resservir dans les autres cas projets suivants.
Autopsy arrive avec une bonne quantité d’expressions régulières, mais elles produisent souvent des faux positifs lorsque l’on s’en sert, comme par exemple :
-Numeros de téléphones (format US)
-Adresses IP
-e-mail
-URL
-Numéros de carte de credit
Une validation du numéro de carte de crédit est fait avec l’algorithme de Luhn.
Autopsy pour l'analyse Windows, la recherche de mots: comment la recherche s'effectue?
On peut enseigner les mots connus quand on lance l’ingest sur une nouvelle source de donnée, avec les mots relatifs à ce type de projet cas, les mots déjà connus en rapport avec ce projet cas.
On peut aussi chercher la boite de recherche dans l’UI principale (ad-hoc) des mots qui arrivent pendant la recherche, en fonction des découvertes.
On peut choisir la liste de mots à chercher pendant l’ingestion
Les recherches sont relancées automatiquement périodiquement. Autopsy sauve l’index toutes les 5 minutes et effectue à nouveau la recherche.
Tout ceci pour rapidement trouver des mots intéréssants dans le contexte utilisateur.
Les résultats sont mis à jour toutes les 5 minutes par defaut.
Autopsy pour l'analyse Windows, la recherche de mots: recherches ad-hoc
Utiliser la boite de rechreche en haut à droite
Il existe des options pour mot exact, partie d’une chaine, et regex, expression régulière
Peut se lancer uniquement sur certaines data sources
On peut choisir de ne pas sauver les résultats comme objets informations découvertes dans le cas projet
Le résultat de la recherche est envoyé dans un nouveau reader.
Autopsy pour l'analyse Windows, la recherche de mots: où trouver les résultats de la recherche?
Le résultat de la recherche sur les modules ingest se trouve dans l’arbre
Organisé par listes
Les requêtes Ad-hoc sont représentées en nodes
La table a d scolonnes pour les mots clés, la préview et le chemin vers le fichier.
On peut voir les mots recherchés surlignés en jaune dans les documents
Quand on trouve un fichier grace à un mot clé intéréssant, on peut visualiser ce fichier en faisant « Viw file in directory » avec le bouton droit : « voir fichier dans le repertoire »
Création d’une liste de mots clés spécifique
Nouvelle liste, on entre le nom, et on entre les mots, un par ligne
On peut coller depuis le presse papier aussi.
Export de listes de mots clés
On peut aussi exporter nos listes
Autopsy pour l'analyse Windows, la recherche de mots: QCM du CTF
Nous allons maintenant exécuter l'ingestion et le pré-remplissage avec des mots clés que nous connaissons déjà sur le cas.
Exécutez l'ingestion avec la «Recherche par mot clé» activée.
Créez une liste de mots clés avec les mots suivants:
Mots-clés de correspondance exacte:
renzik
Configurez pour mettre à jour toutes les 1 minute (afin que vous n'ayez pas à attendre trop longtemps - changez-le après).
Lancez l'ingestion.
Après l'exécution de quelques pour cent des fichiers, vous devriez voir quelques hits. Honnêtement, ils ne sont pas si excitants, mais ils sont assez bons pour ce laboratoire. Il y en a plus pertinents si vous le laissez fonctionner jusqu'à 15% environ.
Question: Il y a des références à un document avec renzik. Quel est le nom du fichier?
In order to ensure that Renzik is trated properly
Question: Combien de hits existe-t-il pour «Renzik» dans NTUSER.DAT? 1
N'oubliez pas de ramener la minuterie périodique de votre recherche de mots clés à 5 minutes.
Cet article reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon Consultingit. J'espère que ça vous a plu.
Ce cours, avec TD, POC et QCM d'évaluation est composé de ces autres chapitres:
Recherche de mots avec SOLR et TIKA
Vos commentaires/remarques sont les bienvenus: