Kommunikationswissenschaft
Kommunikationswissenschaft

Datenbanken

Eine Übersicht über Datenbanken gesprochener Sprache

Deutsch

NameInstitutionknappe BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der Emotionmultimodal?Transkription verfügbar?
ABC (Airplane Behaviour Corpus)Technische Universität München,
Institute for Human-Machine Communication & Department of Informatics

(Björn Schuller, Dejan Arsic, Gerhard Rigoll, Matthias Wimmer, Bernd Radig)
Der ABC umfasst ca. 11,5h augezeichnetes und annotiertes Videomaterial gedacht für die Beobachtung von Verhalten im öffentlichen Verkehr (Flugzeug).

Nähere Beschreibung in:

B. Schuller, M. Wimmer, D. Arsic, G. Rigoll, and B. Radig, “Audiovisualbehaviour modeling by combined feature spaces,” in Proc. ICASSP,2007, pp. 733–736. abrufbar unter: https://mediatum.ub.tum.de/doc/1138565/1138565.pdf
8 (m:4 / f: 4)25 bis 48 Jahre (∅ 32 Jahre)vorgegeben431 Aufnahmenaggressiv, heiter, berauscht, nervös, neutral, müdeinduziertaudiovisuell(ja?)
emoDB (Berlin emotional Speech Database)TU Berlin, Kommunikationswissenschaft
(Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter Sendlmeier, Benjamin Weiss)
A Database of German Emotional Speech
Proceedings Interspeech 2005, Lissabon, Portugal abrufbar unter:
http://database.syntheticspeech.de/databaseOfGermanEmotionalSpeech.pdf
m:5 / f:521 bis 35 Jahre (∅ 30 Jahre)vorgegeben494 AufnahmenWut, Langeweile, Ekel, Freude, Angst, Trauer, neutralgespieltaudio 
SmartKom (SmartKom Multimodal Corpus)Universität München (Bayerisches Archiv für Sprachsignale)Multimodale dialogische Mensch-Technik-Interaktion (in Form eines Wizard-of-Oz-Experiments)
zur Entwicklung von Kommuni- kationsassistenten, die Sprache, Gestik und Mimik analysieren

Nähere Beschreibung in:
Reithinger, N. & Blocher, A., (2003). SmartKom - Multimodale Mensch-Technik-Interaktion (SmartKom – Multimodal Human Computer Interaction). In: Ziegler, J. (Hrsg.), i-com: Vol. 2, No. 1. München: Oldenbourg Wissenschaftsverlag GmbH. (S. 4-10)

abrufbar unter: https://doi.org/10.1524/icom.2.1.4.19034
224n/aspontan448 Aufnahmen, ca. 4-5 min LängeWut, Dankbarkeit, Hilflosigkeit, Gereiztheit, Freude, Nachdenklichkeit, Überraschung, Reflektiertheit, neutral, unidentifizierbare Episoden audiovisuell 
VAM (Vera-Am-Mittag)Universität Karlsruhe, Institut für Nachrichtentechnik und University of SOuthern California, Speech Analysis and Interpretation LabMitschnitte aus deutscher Talkshow

Nähere Beschreibung in:
M. Grimm, K. Kroschel and S. Narayanan, "The Vera am Mittag German audio-visual emotional speech database," 2008 IEEE International Conference on Multimedia and Expo, 2008, pp. 865-868, doi: 10.1109/ICME.2008.4607572.

abrufbar unter:
https://sail.usc.edu/publications/files/grimmicme2008.pdf
m:15/ f:3216 bis 69 Jahre (davon 70% unter 35 Jahre)spontan946 Aufnahmenvalence (negative – positive), activation (calm – excited) and dominance (weak – strong)natürlichaudiovisuellja
AD (Anger Detection)Universität Ulm, Institut für InformationstechnologieTelefonanrufe9n/aspontan660 Aufnahmenneutral und wütendnatürlichaudio 
EA-ACTBjörn Schuller,Lehrstuhl für Mensch-Maschine-Kommunikation Technische Universität München im Rahmen seiner DissertationNähere Beschreibung in:
Schuller, B. (2005). Automatische Emotionserkennung aus sprachlicher und manueller Interaktion.
abrufbar unter:
https://d-nb.info/980554381/34
m:34 / f:5 (Muttersprachen: 28x Deutsch, 1xEnglisch, 1xFranzösisch, 1xMandarin, 3xSerbisch, 5x Türkisch) spontan2280 AufnahmenÄrger, Freude, Trauer, Überraschung, Neutralitätgespielt  
FAU Aibo (Aibo Emtion Corpus (AEC)Universität Erlangen-NürnbergSprachaufzeichnungen von insgesamt 51 Kindern zweier deutscher Schulen bei Interaktion mit Sony Roboter Aibo

Nähere Beschreibung in:

Steidl, S.. “Automatic classification of emotion related user states in spontaneous children's speech.” (2009).

abrufbar unter: http://www5.informatik.uni-erlangen.de/Forschung/Publikationen/2009/Steidl09-ACO.pdf
51 (m:21 /f: 30)10 bis 13 Jahrespontan17074 Aufnahmenneutral, Ärger, Gereiztheit, Freude, Überraschung, Langweile, Hilflosigkeit, Baby Talk, ermahnend, emphatisch, anderenatürlichaudiovisuellja
PPMMK-EMOUniversität PassauPPMMK-EMO is a database of German emotional speech recorded at the University of Passau covering the four basic classes angry, happy, neutral, and sad. It has a total of 3 154 samples averaging 2.5 seconds in length recorded from 36 speakers.36n/a 3154 AufnahmenÄrger, Freude, Trauer, Neutralität   
SIMIS (Speech in Minimal Invasive Surgery)Technische Universität München, Institut für Mensch-Maschine-KommunikationAufzeichung von Chirurgen im Operationssaal

Nähere Beschreibung u.a. in:
Schuller, B., Eyben, F., Can, S., & Feußner, H. (2010). Speech in Minimal Invasive Surgery - Towards an Affective Language Resource of Real-life Medical Operations.

abrufbar unter:
https://mediatum.ub.tum.de/doc/1287421/1287421.pdf
1024 bis 54 Jahrespontan9299 AufnahmenÄrger, Verwirrung, Freude, Ungeduld, Neutralitätnatürlichaudio 

Englisch

NameInstitutionkurze BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der Emotionmultimodal?Transkription verfügbar?
eNTERFACE (eNTERFACE'05 Audio-Visual Emotion Database)Université catholique de Louvain, Laboratoire de Télécommunications et de Télédétection und Aristotle University of Thessaloniki, Department of Informaticsdatabase for testing and evaluating video, audio or joint audio-visual emotion recognition algorithms.

Nähere Beschreibung in:
O. Martin, I. Kotsia, B. Macq and I. Pitas,
"The eNTERFACE' 05 Audio-Visual Emotion Database,"
22nd International Conference on Data Engineering Workshops (ICDEW'06), 2006, pp. 8-8,
doi: 10.1109/ICDEW.2006.145.

abrufbar unter:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.220.2113&rep=rep1&type=pdf
m: 34 / f: 8n/avorgegeben1277 AufnahmenÄrger, Ekel, Angst, Freude, Trauer, Überraschunginduziertaudiovisuell 
SUSAS (Speech Under Simulated and Actual Stress)University of Colorado-Boulder, Robust Speech Processing LaboratoryNähere Beschreibung in:
Hansen, J., & Bou-Ghazale, S.E. (1997). Getting started with SUSAS: a speech under
simulated and actual stress database. EUROSPEECH.

abrufbar unter:
https://www.isca-speech.org/archive/archive_papers/eurospeech_1997/e97_1743.pdf
m: 19 / f: 1322 bis 76 Jahrespontan und vorgegeben3593 Aufnahmenhigh stress, medium stress, screaming, fear, neutralnatürlichaudio 
SAL (Sensitive Artificial Listener)Queen’s University Belfast, Tel Aviv University , University of TwenteNähere Beschreibung in:
Douglas-Cowie, Ellen & Cowie, Roddy & Cox, Cate & Amir, Noam & Heylen, Dirk. (2008).
The Sensitive Artificial Listener: an induction technique for generating emotionally coloured
conversation. Mathematics of Computation - Math. Comput..

abrufbar unter:
http://www.lrec-conf.org/proceedings/lrec2008/workshops/W2_Proceedings.pdf
m: 2/ f: 2n/aspontann/a natürlich  
AVIC (Audiovisual Interest Corpus)Technische Universität München und Toyota Motor CorporationNähere Beschreibung in:

Schuller, Björn & Müller, Ronald & Hörnler, Benedikt & Höthker, Anja & Konosu,
Hitoshi & Rigoll, Gerhard. (2007). Audiovisual recognition of spontaneous interest within conversations.
Proceedings of the 9th International Conference on Multimodal Interfaces,
ICMI'07. 30-37. 10.1145/1322192.1322201.

abrufbar unter: https://www.researchgate.net/publication/221052336_
Audiovisual_recognition_of_spontaneous_interest_within_conversations
m:11 / f: 1040 Jahre (∅ 29 Jahre)spontan3 901 Aufnahmen natürlichaudiovisuell 
EU-EV (EU-Emotion Voice Database)University of Amsterdam u.a.The EU-Emotion voice stimuli consist of 2159 audio-recordings of 54 actors, each uttering sentences with the intention of conveying 20 different emotional states (plus neutral). The database is organized in three separate emotional voice stimulus sets in three different languages (British English, Swedish, and Hebrew)

Nähere Beschreibung in:

abrufbar unter:
Lassalle, Amandine & Pigat, Delia & O'Reilly, Helen & Berggren, Steve & Fridenson-Hayo, Shimrit & Tal, Shahar & Elfström, Sigrid & Råde, Anna & Golan, Ofer & Bölte, Sven & Baron-Cohen, Simon & Lundqvist, Daniel. (2018). The EU-Emotion Voice Database. Behavior Research Methods. 51. 10.3758/s13428-018-1048-1.

https://link.springer.com/content/pdf/10.3758/s13428-018-1048-1.pdf
54 (davon 18 Hebräisch und 18 Schwedisch)10 bis 72 Jahrevorgegeben2,159 Aufnahmen (695 in British English, 1,011 in Swedish, and 453 in
Hebrew)
20 different emotional states (plus neutral)
afraid, angry, ashamed, bored, disappointed, disgusted, excited, frustrated, happy, hurt, interested, jealous, joking, kind, proud, sad, sneaky, surprised, unfriendly, worried)
gespielt  
EmoFilmUniversität Augsburg, Universität Rom, Imperial College Londonemotional speech from films multilingual database suitable for study of culture and
measurement strategies when evaluating the perception of emotion in speech

Nähere Beschreibung in:
Parada-Cabaleiro, E., Costantini, G., Batliner, A., Baird, A., & Schuller, B. (2018).
Categorical vs Dimensional Perception of Italian Emotional Speech. INTERSPEECH.

abrufbar unter:
https://opus.bibliothek.uni-augsburg.de/opus4/frontdoor/deliver/index/docId/44177/file/0047.pdf
207 (auch Italienisch und Spanisch)n/avorgegeben1115 Aufnahmenanger, sadness, happiness, feargespieltaudiovisuell 
IEMOCAP (Interactive Emotional Dyadic Motion Capture)University of Southern California, Signal Analysis and Interpretation Laboratoryconsists of dyadic sessions where actors perform improvisations or scripted scenarios,
specifically selected to elicit emotional expression

Nähere Beschreibung in:
C. Busso, M. Bulut, C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. Chang, S. Lee, and S. Narayanan,
"IEMOCAP: Interactive emotional dyadic motion capture database," Journal of Language Resources and Evaluation, vol. 42, no. 4, pp. 335-359, December 2008.

abrufbar unter:
https://sail.usc.edu/iemocap/Busso_2008_iemocap.pdf
m:5 /f: 5n/ascripted and spontaneous sessions5531 AufnahmenÄrger, Freude, Trauer, excitement, Frustration, Angst, Überraschung, Neutralität und andere plus dimensional (valence, activation, dominance)gespieltaudiovisuell (mit motion capture)ja
MELD (Multimodal EmotionLines Dataset)University of Michigan, Nanyang Technological University, Instituto Politénico Nacional,Singapore University of Technology and Design, National University of SingaporeMELD contains about 13,000 utterances from 1,433 dialogues from the TV-series Friends

Nähere Beschreibung in:
Poria, Soujanya & Hazarika, Devamanyu & Majumder, Navonil & Naik, Gautam & Cambria, Erik & Mihalcea, Rada. (2018). MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations.

abrufbar unter: https://arxiv.org/pdf/1810.02508.pdf
6+n/avorgegeben13707 AufnahmenÄrger, Ekel, Trauer, Freude, Neutral, Überraschung, Angstgespieltaudiovisuellja
HUMAINE (Human-Machine Interaction Network on Emotions)University of Belfast, LIMSI-CNRS, Universität Erlangen-Nürnberg,
Tel Aviv University,
National Technical University Athens
und viele weitere Partner
HUMAINE aims to lay the foundations for European development of systems that can register, model and/or influence human emotional and emotion-related states and processes: "emotion-oriented systems".

It contains 48 clips (defined as naturalistic, induced or acted data), selected from the following corpora:
- Belfast Naturalistic database (in English, naturalistic, 10 clips)
- Castaway Reality Television dataset (in English, naturalistic, 10 clips)
- Sensitive Artificial Listener (in English, induced, 12 clips)
- Sensitive Artificial Listener (in Hebrew, induced, 1 clip)
- Activity/Spaghetti dataset (in English, induced, 7 clips)
- Green Persuasive dataset (in English, induced, 4 clips)
- EmoTABOO (in French, induced, 2 clips)
- DRIVAWORK corpus (in German, induced, 1 clip)
- GEMEP corpus (in French, acted, 1 clip)

Nähere Beschreibung in:
Douglas-Cowie, Ellen & Cox, Cate & Martin, Jean-Claude & Devillers, Laurence & Cowie, Roddy & Sneddon, Ian & McRorie, Margaret & Pelachaud, Catherine & Peters, Christopher & Lowry, Orla & Batliner, Anton & Hoenig, Florian. (2011). The HUMAINE database. 10.1007/978-3-642-15184-2_14.

abrufbar unter:
https://www.researchgate.net/publication/226191511_The_HUMAINE_database
n/an/an/a48 Aufnahmenmit >20 Labels versehennatürlich, induziert und gespieltaudiovisuell 
CREMA-DUniversity of Pennsylvaniaan audio-visual data set uniquely suited for the study of multi-modal emotion expression and perception

Nähere Beschreibung in:
Cao, H., Cooper, D. G., Keutmann, M. K., Gur, R. C., Nenkova, A., & Verma, R. (2014). CREMA-D: Crowd-sourced Emotional Multimodal Actors Dataset. IEEE transactions on affective computing, 5(4), 377–390. https://doi.org/10.1109/TAFFC.2014.2336244

abrufbar unter:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4313618/
91n/avorgegeben7,442 Aufnahmenhappy, sad, anger, fear, disgust, and neutral (surprise was not considered by the acting directors to be sufficiently specific, as it could relate to any of the other emotions with rapid onset)gespieltaudiovisuell 
MOCHA-TIMITUniversity of Edinburgh, Centre for Speech Technology ResearchNähere Beschreibung unter:
https://data.cstr.ed.ac.uk/mocha/README_v1.2.txt
2 (m:1 /f:1)n/avorgegeben460 Aufnahmen    
TORGOUniversity of Toronto, The Speech and Stuttering Institute & Department of Computer Science & Oral Dynamics Laboratory, Department of Speech-Language Pathology, & Holland Bloorview Kids Rehabilitation Hospital,Toronto,TORGO is one of the most popular dysarthric speech corpora
[33]. It consists of aligned acoustic and articulatory recordings
from 15 speakers. Seven of these speakers are control speakers
without any speech disorders, while the remaining eight speakers present different levels of dysarthria.

Nähere Beschreibung in:
R. F., N. A.K., and T. Wolff, “The torgo database of acoustic
and articulatory speech from speakers with dysarthria,” Lang Re-
sources & Evaluation, vol. 46, pp. 523–541, 2012

abrufbar unter:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.420.767&rep=rep1&type=pdf
15n/avorgegeben reflex, respiration, lips, jaw, velum laryngeal, tongue, intellegibilityn/a  
The Nemours Database of Dysarthric SpeechApplied Science & Engineering Laboratories (ASEL),
A.I. duPont Institute, USA
The Nemours database is a collection of 814 short nonsense sentences; 74 sentences spoken by each of 11 male speakers with varying degrees of dysarthria.

Nähere Beschreibung in:
Menéndez-Pidal, Xavier / Polikoff, James B. / Peters, Shirley M. / Leonzio, Jennie E. / Bunnell, H. T. (1996): "The nemours database of dysarthric speech", In ICSLP-1996, 1962-1965.
abrufbar unter:

https://www.isca-speech.org/archive/archive_papers/icslp_1996/i96_1962.pdf
11 (m:11)n/avorgegeben814 Aufnahmen39 segment labels derived from the ARPAbet symbol set.n/a broad phonemic transcription

Französisch

NameInstitutionkurze BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der EmotionmultimodalTranskription verfügbar
GEMEP (Geneva Multimodal Emotion Portrayal)Université de GenèveNähere Beschreibung in:
Bänziger, T., & Scherer, K. R. (2010). Introducing the Geneva Multimodal Emotion Portrayal (GEMEP) corpus. In K. R. Scherer, T. Bänziger, & E. B. Roesch (Eds.), Blueprint for affective computing: A sourcebook (pp. 271-294). Oxford, England: Oxford university Press.

abrufbar unter:
https://www.unige.ch/cisa/files/5814/6721/0641/Banziger__Scherer_-_2010_-_Introducing_the_Geneva_Multimodal_Emotion_Portrayal_GEMEP_Corpus.pdf
m: 5 / f: 5n/avorgegeben1260 AufnahmenBewunderung, Amüsement, Zärtlichkeit, Ärger, Ekel, Verzweiflung, Stolz, Scham, Ängstlichkeit, Interessiertheit, Gereiztheit, Freude (Begeisterung), Verachtung,Angst(Panik), Freude (sinnlich), Erleichterung, Überraschung, Trauergespieltaudiovisuellja

Spanisch

NameInstitutionknappe BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der EmotionmultimodalTranskription verfügbar
EmoFilmUniversität AugsburgNähere Beschreibung in: Emilia Parada-Cabaleiro, Giovanni Costantini, Anton Batliner, Alice Baird, and Björn Schuller (2018), Categorical vs Dimensional Perception of Italian Emotional Speech, in Proc. of Interspeech, Hyderabad, India, pp. 3638-3642.207 (auch Englisch und Italienisch)  1115 Aufnahmenanger, contempt, happiness, fear, and sadness   
SES (Spanish Emotional Speech database) Nähere Beschreibung in:
Montero, Juan & Gutierrez-Arriola, Juana M. & Colás, José & Macias-Guarasa, Javier & Enríquez, Emilia & Pardo, Juan. (1999). Development of an emotional speech synthesiser in Spanish.

abrufbar unter:
https://www.isca-speech.org/archive/archive_papers/eurospeech_1999/e99_2099.pdf
1 (m:1) vorgegeben30 words, 15 short sentences and 3 paragraphsAnger, happiness, sadness, surprise, neutralgespielt  
  Nähere Beschreibung in:
Sanz, Ignasi & Guaus, Roger & Rodrguez, Angel & Lázaro Pernias, Patrícia & Vilar, Norminanda & Pont, Josep Maria & Bernadas, Dolors & Oliver, Josep & Tena, Daniel & Longhi, Ludovico. (2001). Validation Of An Acoustical Modelling Of Emotional Expression In Spanish Using Speech Synthesis Techniques.

abrufbar unter:
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.385.1165&rep=rep1&type=pdf
    eight actors (four females, four males), three intensities, 336 utterances.   
 Technical University of Madrid80 utterances (300 utterances with four different sentences as syn- thetic data set (actors), 80 utterances as real data set (DVD movies)), 15 non-professional speakers (female and male) in the synthetic data set.

abrufbar unter:

https://ieeexplore.ieee.org/abstract/document/1513750
    neutral, happiness, sadness, anger, and fear   

Mandarin

NameInstitutionkurze BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der EmotionmultimodalTranskription verfügbar
CASIA  4  1200 Aufnahmen    
CVE (Chinese Vocal Emotions)  4  874 Aufnahmen    
MES (Mandarin Emotional Speech)  6  360 Aufnahmen    
           
           

Türkisch

NameInstitutionknappe BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der EmotionmultimodalTranskription verfügbar
BUEMODB (Bogazici University Emotion Database)Bogazici Universitygespielte Sätze zur Messung der F011 (f:7/M:4) vorgegeben484 Aufnahmenanger, joy, neutrality, and sadness.gespielt  
TurES (TURkish Emotional Speech database) Äußerungen aus 55 türkischen Filmen582 (f: 188 / m: 394) vorgegeben5304 Aufnahmenhappy, surprised, sad, angry, fear, neutral and other) and 3- dimensional emotional space (valence, activation, and dominance).gespielt  
EmoSTAR Äußerungen aus Film und Fernsehen   >300 Aufnahmen    
Voice Corpus  f:25 / m:25  3740 Aufnahmenafraid, angry, happy, sad, neutral   
Turkish Emotion-Voice Database (TurEV-DB)Cognitive Science Department, Middle East Technical University (METU)Amateurschauspielerf:3 m:3   angry, calm, happy sadgespielt  

Dänisch

NameInstitutionkurze BeschreibungAnzahl Sprecher*innenAltersgruppeneingesprochener TextUmfangAnnotationskategorienUrsprung der EmotionmultimodalTranskription verfügbar
DES (Danish Emotional Speech)  m:2 / f: 2 vorgegebenAufnahmen induziert