Registered Member
|
Hallo Peter,
Du hast mir die Tage auf deinem Blogg ein paar Fragen beantwortet. Ich habe allerdings noch ein paar weitere. Du meintest: "ja, das deutsche Voxforge Modell ist so nicht kompatibel. Der Weg war schon richtig, die Szenarios haben sich aber von diesem Modell entfernt. Ich arbeite eigentlich an einem wesentlich besseren, deutschen Sprachmodell, bin aber noch nicht dazu gekommen (und werde es so bald auch nicht), das fertig zu stellen. Erwarte aber spätestens im Sommer hier eine neue Version." Ist es Simon also im Moment nicht möglich deutsche Wörter zu erkennen? Oder was muss ich dafür tun? Liebe Grüße Alex |
Moderator
|
Das existierende Sprachmodell ist leider nicht phonetisch komplett. Es gibt also Triphone (und teilweise sogar Biphone) die nicht abgedeckt sind - hauptsächlich wegen suboptimalen Wörterbuchdesign.
Was hast du denn für ein Schattenwörterbuch verwendet um dein neues Szenario zu designen? Alternativ zu diesem Kopfzerbrechen kannst du dir ja jederzeit dein eigenes Modell erstellen. Sprich: Schalte die Verwendung von Basismodellen aus und investiere ein bisschen Zeit um Simon zu Trainieren. Die Erkennungsqualität des derzeit verfügbaren deutschen Basismodell sollte leicht zu übertreffen sein. Lg Peter |
Registered Member
|
Hey Peter,
Danke schonmal soweit! Das mit dem eigenen Modell klappt wirklich nach wenig Zeit schon recht gut! Ich benutze das BOMP und bin damit ganz zufrieden. Allerdings tut sich mir ein neues Problem auf. Ich habe bisher an einem Windows 7 Rechner gearbeitet. Dort hat alles gut funktioniert. Jetzt habe ich das ganze auf einem Windows XP Rechner getestet und bekomme beim erstellen des Modells (selbst das automatische beim Starten von Simon) die Fehlermeldung: agg_seg.exe hat ein Problem festgestellt und muss beendet werden. Ist dir dieses Problem bekannt? Hast du mir vielleicht einen Tipp woran das liegen kann und wie ich das beheben könnte? Liebe Grüße Alex |
Moderator
|
Ist mir so eigentlich nicht bekannt. Leider mussten wir für 0.4.0 unter Windows eine Entwicklerversion von SPHINX paketieren weil SPHINX 0.8 nicht rechtzeitig fertig wurde.
Probiere doch mal die veröffentliche Binary von Ihnen: http://sourceforge.net/projects/cmusphi ... ain/1.0.8/ (sphinxtrain-1.0.8-win32.zip herunterladen, extrahieren und mit der darin enthaltenen agg_seg.exe die im Simon Installationsordner (einfach danach suchen) überschreiben). Löst das das Problem? Lg Peter |
Registered Member
|
Jap mit der neuen agg_seg.exe kommt keine Fehlermeldung mehr.
Ich hatte gehofft, dass das Modell jetzt erstellt werden kann. Allerdings passiert ab 20% "Modell wird erstellt" leider nichts mehr. Auch dein Tipp Simond (ja mit d ) über den Taskmanager zu schließen, bringt hier leider noch keine Fortschritte. Es kommt allerdings auch keine Fehlermeldung, so dass ich nicht weiß woran es jetzt liegen könnte ... |
Moderator
|
Je nach Input Parametern kann SphinxTrain unter Umständen sehr lange benötigen um ein Modell zu generieren.
Hast du überprüft, ob dein Computer vlt. einfach nur länger rechnet? Ich konnte auch feststellen, dass das bei mir selbst oft aufgetreten ist wenn ich sehr, sehr wenig Trainingsdaten verwendet habe. Vlt. kannst du auch einfach versuchen ein wenig mehr zu trainieren. Wenn das Ding einfach "hängt", prüfe mal das SphinxTrain-Log. Dazu suche in %appdata%/.kde/tmp-<user>/simond/ nach "*.html" und wähle das aktuellste (Pfade aus dem Gedächtnis, bitte ein wenig fuzzy logic anwenden beim pasten Lg Peter |
Registered Member
|
Okay also hier mal die Auszüge mit Fehlern:
MODULE: 000 Computing feature from audio files (2013-05-06 14:33) Extracting features from segments starting at (part 1 of 1) sphinx_fe Log File This step had 48 ERROR messages and 0 WARNING messages. Please check the log file for details. completed Extracting features from segments starting at (part 1 of 1) sphinx_fe Log File This step had 48 ERROR messages and 0 WARNING messages. Please check the log file for details. completed Feature extraction is done MODULE: 05 Vector Quantization (2013-05-06 14:33) agg_seg Log File completed kmeans_init Log File This step had 3 ERROR messages and 0 WARNING messages. Please check the log file for details. Phase 2: Flat initialize mk_mdef_gen Log File completed mk_flat Log File This step had 2 ERROR messages and 0 WARNING messages. Please check the log file for details. completed init_mixw Log File This step had 1 ERROR messages and 0 WARNING messages. Please check the log file for details. Okay ich hoffe das war jetzt nicht zu unübersichtlich. Durch die entsprechenden Logfiles habe ich mal geschaut, verstehe allerdings nicht wo das Problem konkret liegt ... PS: Ich habe die Modellerstellung jetzt eine Weile laufen lassen (knapp 3 Stunden) und es ist immer noch bei 20% ohne erkennbaren Fortschritt... |
Moderator
|
Ah, du hast wahrschl. Wörter mit Umlauten in deinem aktiven Vokabular, ist das möglich?
Das ist leider ein bekanntes Problem unter Windows mit dem SPHINX backend derzeit: Die Dateinamen beinhalten nämlich den Prompt (was gesagt wird), heißen also z.B. "zurück_<datum>.wav". Problem, dabei ist dass das Dateisystem unter Windows Dateinamen mit einem lokalen Zeichensatz enkodiert und dann passt das nicht mehr mit dem (utf-8 enkodierten) Inhalt der Datenbank zusammen. 2 mögliche Lösungen: 1. Das HTK Backend beinhaltet einen entsprechenden Workaround, ist aber nicht Free Software 2. Lösche die Wörter mit Umlauten drin, lass Simon dabei die Trainingsdaten davon entfernen und füge Sie neu hinzu ohne Umlaute und anderen Sonderzeichen (z.B.: "zurueck"). Das Problem hatte ich leider nicht rechtzeitig vor 0.4 entdeckt, da ich ob des knappen Zeitplans nur sehr wenig unter Windows testen konnte. Sorry. Lg Peter |
Registered Member
|
Guten Morgen,
Ich habe jetzt alle Wörter mit Umlauten aus dem aktiven Vokabular entfernt. Danach habe ich unter "Training -> Traingsdaten verwalten" alle Wörter mit Umlauten gelöscht. Danach habe ich das Modell auf dem Win 7 Rechner exportiert und auf dem XP Laptop importiert. Beim starten kommt nun folgende Meldung: "Bei der Erkennung ist folgender Fehler aufgetreten: Die Erkennung kann nicht eingerichtet werden:" Das Problem ist danach kommt kein Text mehr. Auch nicht wenn ich auf "Details" gehe. Appdata Ordner werden inzwischen nur noch die Ordner "etc" und "wav" (wobei "wav" leer ist) angelegt, so dass man auch hier keine Hinweise mehr auf den konkreten Fehler erhält. Hast du noch eine Idee woran das liegen könnte? Nochmal Danke, dass du dir so viel Zeit und Mühe gibst! |
Moderator
|
Ja, da ist das SPHINX backend leider sehr zugeknöpft. Ohne weitere Informationen lasst sich hier aber nicht viel machen. Wie hast du das Modell den exportiert / importiert?
Ja, sorry das ich mich nicht früher gemeldet habe, ich hatte ziemlich viel um die Ohren. Lg Peter |
Registered Member
|
Guten Morgen,
Inzwischen habe ich das Problem gefunden. Das Modell auf den anderen Rechner zu bringen war wohl nicht der Fehler. Beim einfügen der Wörter in das aktive Vokabular habe ich jedoch die zwei standard Audioaufnahmen gemacht, die dann das Programm zum Absturz brachten. Wenn man das überspringt, kann man mit dem importierten Modell arbeiten. Nochmal eine Frage an dieser Stelle: Ich versuche im Moment Simon als Sprachsteuerung für ein Tablett zu benutzen. Dafür habe ich Wörter eingefügt, die von Simon erkannt werden, dann über die Diktierfunktion geschrieben werden. Ein Javaprogramm überprüft die gedrückten Tasten und feuert bei Erkennung eines Schlüsselwortes einen Befehl an die Schnittstelle, welche dann wiederum das entsprechende Programm auf dem Tablett öffnet. Das ganze ist jedoch ein sehr langer und aufwendiger Weg. Ich habe beim durchsehen der Befehle in Simon gesehen, dass dieser auch mit JSON und DBus arbeiten kann. Gibt es inzwischen vielleicht ein Tutorial zu diesen Modulen? Im Handbuch sind sie leider nicht erklärt. Damit sollte sich ja zumindest der Umweg über die Diktierfunktion und den KeyListener sparen lassen oder? Liebe Grüße Alexander Bogenrieder |
Moderator
|
Was meinst du mit "abstürzen"? Mir ist derzeit kein Crash-Bug bekannt. Falls du auf einen solchen gestoßen bist, gib mir bitte mehr Details damit ich mir das ansehen kann.
Sowohl D-Bus als auch JSON werden in der Dokumentation "beschrieben". Es stimmt, da steht nicht viel aber da gibt es auch sehr wenig zu beschreiben. Eine entsprechende IPC Lösung ist auf alle Fälle viel robuster als der Hack über die Tastendrücke. Lies dir einmal ein paar Tutorials über D-Bus (oder JSON) durch, implementier eine entsprechende Schnittstelle in deiner Applikation und dann sollte es eigentlich sehr klar sein, was Simon da genau fragt (die Parameter beschreiben nur das Interface und den Request). Lg Peter |
Registered users: Bing [Bot], Evergrowing, Google [Bot]