This paper aims to make a brief presentation of the main features and potential of the Taltac4 freeware software through an exploratory analysis of a large corpus (more than 600 million of occurrences) which includes all the abstracts of the USPTO patent documents. Patents have been extensively used as a source of information on innovative activity but the textual content of patent documents has not been fully exploited in existing research. Our preliminary results are promising and suggest that text analysis of patent abstracts can help developing new classification of innovative activities, overcoming the shortcomings of existing classifications of technologies

In questo lavoro vengono brevemente illustrate le principali caratteristiche e potenzialità del software freeware Taltac4 attraverso un'analisi esplorativa di un corpus di grandi dimensioni (più di 600 milioni di occorrenze) che include tutti gli abstract dei documenti dei brevetti USPTO. I brevetti sono stati ampiamente utilizzati come fonte di informazioni sull'attività innovativa, ma il loro contenuto testuale non è stato pienamente sfruttato nella ricerca esistente. I nostri risultati preliminari sono promettenti e suggeriscono che l'analisi testuale degli abstract dei brevetti può aiutare a sviluppare una nuova classificazione delle attività innovative, superando le carenze delle classificazioni esistenti delle tecnologie

Text mining on large corpora using Taltac4: An explorative analysis of the USPTO patents database

Pasquale Pavone;
2022-01-01

Abstract

This paper aims to make a brief presentation of the main features and potential of the Taltac4 freeware software through an exploratory analysis of a large corpus (more than 600 million of occurrences) which includes all the abstracts of the USPTO patent documents. Patents have been extensively used as a source of information on innovative activity but the textual content of patent documents has not been fully exploited in existing research. Our preliminary results are promising and suggest that text analysis of patent abstracts can help developing new classification of innovative activities, overcoming the shortcomings of existing classifications of technologies
2022
9788891927361
In questo lavoro vengono brevemente illustrate le principali caratteristiche e potenzialità del software freeware Taltac4 attraverso un'analisi esplorativa di un corpus di grandi dimensioni (più di 600 milioni di occorrenze) che include tutti gli abstract dei documenti dei brevetti USPTO. I brevetti sono stati ampiamente utilizzati come fonte di informazioni sull'attività innovativa, ma il loro contenuto testuale non è stato pienamente sfruttato nella ricerca esistente. I nostri risultati preliminari sono promettenti e suggeriscono che l'analisi testuale degli abstract dei brevetti può aiutare a sviluppare una nuova classificazione delle attività innovative, superando le carenze delle classificazioni esistenti delle tecnologie
Text mining
large corpus
textual Big Data
patents
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12607/38043
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
social impact