Home Assistant Voice Chapter 11: Mehrsprachige Assistenten & mehr

Die Macher von Home Assistant haben 2023 begonnen, verstärkt am Thema Sprachsteuerung zu arbeiten. Der Home Assistant soll sich per Sprache steuern lassen, hierbei greift man aber nicht auf Alexa oder den Google Assistant zurück. Die Plattform „Assist“ hat man mittlerweile sukzessive ausgebaut. Man unterstützt lokale Dienste sowie Clouddienste – inzwischen auch mit Home Assistant Voice auf dedizierter Hardware – zumindest im Preview-Stadium. Auch an der Anbindung von LLM, sprich künstlicher Intelligenz, arbeitet man.
Im Rahmen des Voice Chapter 11 informiert man über den derzeitigen Entwicklungsstand und weitere Planungen rund um das Thema Sprachsteuerung. Im Fokus steht derzeit die mehrsprachige Bedienung und man unterstützt einige Sprachen, welche Sprachassistenten der großen Tech-Giganten derzeit nicht unterstützen.
Bei Home Assistant hat man die Sprachunterstützung deutlich ausgeweitet. So unterstützt man mehrsprachige Haushalte mit der Möglichkeit, mit Assist in verschiedenen Sprachen zu interagieren. Seit einiger Zeit können Benutzer Assist-Sprachassistenten-Pipelines für verschiedene Sprachen in Home Assistant erstellen, aber die Interaktion mit den verschiedenen Pipelines erforderte entweder mehrere Sprachsatellitengeräte (eines pro Sprache) oder eine Art Automatisierungsauslöser, um die Sprache zu wechseln.
Mit 2025.10 werden bis zu zwei Wakewords und auch Pipelines für Sprachassistenten auf jedem Assist-Satelliten unterstützt. So kann das eine Aufwachwort für deutsche Sprachbefehle verwendet werden, während ein anderes Wakeword englischsprachige Befehle entgegennimmt. Möglich ist neben mehreren Sprachen auch die Unterscheidung und Trennung eines lokalen und eines Cloud-basierten Sprachassistenten bzw. (auf Wunsch) einem LLM.
Home Assistant hat neue Intents hinzugefügt. Drei neue sind es an der Zahl: Zur Steuerung von Medienplayern kann man jetzt die relative Lautstärke mit Sprachbefehlen wie „Lauter stellen“ oder „TV-Lautstärke um 25 % verringern“ einstellen. Dies ergänzt die bereits vorhandene Lautstärkeregelung, mit man absolute Lautstärke einstellen kann, z. B. „TV-Lautstärke auf 50 % einstellen“. Darüber hinaus ist es nun möglich, die Geschwindigkeit eines Lüfters prozentual einzustellen. Zum Beispiel: ‚Schreibtischlüfter auf 50 % einstellen‘ bzw. „Lüfter auf 50 % einstellen“, um alle Lüfter im aktuellen Bereich einzustellen. Mit den Intents lassen sich fortan auch Rasenmähroboter steuern, wie man das bereits von den Saugrobotern kennt.
Mittels Automatisierungen – und ganz ohne LLM – kann Assist auch proaktiv Fragen stellen lassen. So ist es möglich beim Betreten des Wohnzimmers, gefragt zu werden, welche Art von Musik man bei der Zubereitung des Abendessens gerne hören möchte. Oder ob man das offengelassene Garagentor schließen möchte.

Assist wurde entwickelt, um schnell und vollständig offline auf Hardware wie dem Raspberry Pi 4 für viele verschiedene Sprachen zu laufen. Die Funktion gleicht den Text der Sprachbefehle mit Satzvorlagen ab, z. B. „Schalte {Name} ein“ oder „Schalte das Licht im {Bereich} aus“. Dies ist zwar sehr schnell und einfach in viele Sprachen zu übersetzen, kann aber auch unflexibel sein und zu Missverständnissen oder Fehlern führen. Mit dem verbesserten „Fuzzy Matcher“ soll das jetzt auch mit zusätzlichen Wörtern oder alternativen Formulierungen besser funktionieren. Vorerst in englischer Sprache, in Arbeit aber auch für weitere Sprachen.
Bisher quittiert Assist Sprachbefehle mit einer kurzen Bestätigung. Ab Home Assistant 2025.10 erkennt Assist, ob die Aktionen des Sprachbefehls alle im selben Bereich wie das Satellitengerät stattgefunden haben. Wenn dies der Fall ist, wird anstelle der vollständigen verbalen Antwort ein kurzer Ton zur Bestätigung abgespielt. Nonverbale Bestätigungen werden in Sprachassistenten-Pipelines mit LLMs nicht verwendet, da der Benutzer in seiner Eingabeaufforderung spezifische Anweisungen haben kann, wie z. B. „Reagiere wie ein Pirat“.
Bisher muss bei Verwendung von LLMs die vollständige Antwort abgewartet werden, bis diese per Text-to-Speech (TTS) ausgegeben wird. Bei umfangreichen Antworten bringt dies entsprechende Wartezeiten mit sich. Die TTS-Architektur hat man jetzt überarbeitet, um auch Streaming zu ermöglichen. Während Textabschnitte von einem LLM gestreamt werden, kann der TTS-Dienst Audioabschnitte synthetisieren und sie sofort zur Wiedergabe senden. Das TTS-Tool Piper unterstützt jetzt zudem mehr Stimmen sowie Sprachen.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Es ist schön, dass HA voice unterstützt, besonders als Alternative zu den Big Playern. Ich habe allerdings den Eindruck, das da sehr viel Resourcen auf einen Bereich geworfen werden, das für viele Nutzer überhaupt kein Thema ist. Ich habe im Bekannten- und Kollegenkreis ca. 10 Leute, die HA nutzen. Bedienung per Sprache? Keiner davon. Klar, das ist meine kleine Bubble die ich sehe, aber ist Voice wirklich den vielen Aufwand wert?
Ich verwende Home Assistant und würde sehr gerne Sprachsteuerung verwenden. Ich denke mal, dass viele – wie ich auch – die Sprachsteuerung noch nicht nutzen, da es noch nicht wirklich schön umsetzbar ist. Die meisten werden wohl, wie ich auch, Alexa-Geräte oder ähnliche Geräte herumstehen haben. Wir haben bei uns in jedem Zimmer des gesamten Hauses entweder ein Echo Show oder ein Echo Dot Gerät. Leider ist Alexa tot und die Geräte werden nur noch für Licht an/aus und Timer verwendet. Ich würde sehr gerne sehr vieles von meinem Smart Home per Sprache steuern, insbesondere auch so Beispiele, die im Artikel genannt wurden wie „Die Garage ist noch offen, möchtest du sie schließen?“. Nabu Casa kommt für mich nicht in Frage. Daher kann ich nur rudimentäre Aktionen mit Home Assistant über Alexa mithilfe von Hue Emulated oder Matter Hub verwenden. Beides funktioniert so gut wie gar nicht oder nur bis zum nächsten Neustart. Sprachausgabe von Home Assistant auf den Echo Geräten hingegen funktioniert problemlos.
So was mach ich nun? Ich brauch doch nun eine Möglichkeit in jedem Raum mit Home Assistant sprechen zu können und eine Antwort zu hören. Da gibt es einfach nichts. Da gibt es irgendwelche Basteleien mit irgendwelchen Mikrofonen oder Preview-Bastel-Geräten von Home Assistant. Es gibt aber nichts finales, perfektes und vor allem Wohn-tauglich. Ich kleb mir doch keinen potthässlichen Bastelkasten irgendwo an die Wand. Was es benötigt sind Geräte wie jene Echo-Geräte, HomePod, etc. Sowohl mit als auch ohne Display. Erst dann ist das ganze nutzbar für die breite Masse und für Familienhaushalte, in denen nicht nur Nerds leben. Dann könnte man auch die ganzen nutzlichen Echo-Geräte rausschmeißen. Besser wäre es aber eigentlich, wenn diese Geräte endlich frei genutzt werden könnten und beliebige Fragen und Befehle direkt an Home Assistant weitergeleitet werden könnten, aber das müsste Amazon umsetzen bzw. die Geräte öffnen und das wird niemals passieren.
Also wird aktuell die Sprachsteuerung unter Home Assistant nur als Spielerei von einigen Nerds verwendet. Es fehlt an Hardware, die schick aussieht und genauso gut wie Echo-Geräte, etc. funktioniert. D.h. auch, dass wenn in jedem Raum solch ein Gerät steht, und mehrere deine Stimme hören, erkannt wird, welches zu reagieren hat und auch nur einmal reagiert wird (so wie es mit Echo Geräten der Fall ist).
Genau das ist der Punkt.
Ich finde Sprache super.
Es fehlt aber die Hardware.
Es wäre schön, wenn es endlich eine finale Version der HA Pods geben würde.
Noch schöner wäre es, wenn man die Echos Dots umflashen könnte, aber da scheint es aktuell keine Möglichkeit zu geben.
Wirklich schade, weil das wird dann irgendwann Elektroschrott, obwohl man die Hardware dafür ja super nutzen könnte.
Das wäre mal eine tolle Geste von Amazon für alle alten dots eine Freigabe als Open Source.
Henne-Ei-Problem: Du willst das nicht benutzen, weil es keine „vernünftige“ Hardware dafür gibt. Soll Nabu Casa nun keine Ressourcen in Entwicklung stecken, nur weil es keine willigen Anwender gibt? Allerdings wird ja auch nicht erwartet, dass du deren Arbeit mit Geld freiwillig bzw. als Spende unterstützt und kannst abwarten, bis eine genehme Hardware für den gewünschten Preis auf den Markt kommt.
Ich finds toll, dass sich da was tut – auch cloud-frei. Und mal schauen, vielleicht gibts auch für mein Haus passende Hardware. Bisher benutze ich noch nichts davon mit HA und Smarthome, auch wenn ich schon FasterWhisper-XXL für Spracherkennung nutze und mit Piper Sprachausgaben generiert habe.
jeder hat doch bestimmt noch ein paar ältere Handys und Tablets rumliegen. mit denen kann man doch bestimmt ein Kommunikationssystem aufbauen. und einen Bildschirm und Kameras haben die auch. Gibt es da nicht schon Lösungen?
Ich habe da auch gemischte Gefühle. Bin auch eher noch HA Anfänger, seit ca. 1 Jahr dabei, und habe noch keine Ambitionen, was per Sprache zu machen.
Andererseits ist es ein sehr weiter Weg, bis man dort wirklich konkurrenzfähig ist. Und auch, wenn es noch nicht viele nutzen, für viele Leute ist Smart Home ohne vernünftige Sprachsteuerung undenkbar. Und wenn man eine ernsthafte Alternative zu den großen Playern sein will, muss man das Thema mit beachten. Insofern finde ich es gar nicht so schlecht, dass da viele Ressourcen reinfließen. Auch wenn ich es grade noch nicht nutze.
Ja, ich denke Voice ist die Zukunft. Wer will für die nicht automatisierbaren Teile der Licht- und Gerätesteuerung schon irgendwo rumtippen oder eine Fernbedienung/Gerät suchen, wenn man einfach in den Raum hinein rufen kann. Bisher muss man für Voice in Verbindung mit HA einen der bekannten großen Player bemühen. Ich selbst hatte einige Zeit Amazon Alexa per HUE-Emulation angebunden, was vor allem im Hinblick auf den WAF ein großer Vorteil war. Aber leider ist die Konfiguration der Emulation und das Gerätehandling in Alexa alles andere als ausgereift und neigt zu ungewollten Schaltvorgängen. Aufgrund der Nachteile ist die Anbindung hier mittlerweile deaktiviert. Und natürlich haben Alexa und alle anderen den Cloudzwang und das Datenabflussrisiko als erhebliche Nachteile, die die meisten HA-Nutzer grundsätzlich von der Nutzung abhalten.
Wenn es nun also eine sehr gut integrierte, gut zu konfigurierende, funktionale und vor allem lokal zu nutzende Alternative gibt, wird dies die Attraktivität von HA weiter steigern und die Sprachfunktionalität im HA-Smart Home einem deutlich breiteren Nutzerkreis öffnen.
Ob es den Aufwand wert ist, ist schwer zu sagen. Ich habe aktuell 2 Satelliten (Voice PE) im Einsatz – parallel zu unseren Google Home Speakern. Im Moment ist Google in Sachen Wakeword-Erkennung und Geschwindigkeit noch deutlich überlegen. Home Assistant holt aber ganz langsam immer weiter auf.
Was mir besonders gefällt: Mit ein bisschen „Spielerei und Bastelei“ erkennt Home Assistant, ob unser Sohn zu ihm spricht oder einer von uns erwachsenen Elternteilen und antwortet dann bei Bedarf deutlich kindgerechter und erinnert ans Aufräumen usw. Funktioniert nicht immer so 100% zuverlässig, aber es im großen und ganzen passt es für uns.
Da mir die lokale Spracherkennung von HA momentan zu ungenau ist, habe ich die Google-STT eingebunden. Die Erkennung dauert zwar etwas länger, aber dafür können wir auch im „tiefsten bayrisch“ reden und er vesteht einfach, was wir wollen.
Den größten Vorteil von der Sprachbedienung direkt über HA sehe ich nicht darin, dass ich sage „Hey duda, mach dies und das“, sondern dass das System von sich auch „unaufgefordert“ anspricht, ob es was für mich erledigen kann. So frägt uns HA z.B., was wir machen wollen, wenn wir die Backofentür öffnen. Dann können wir entweder die Werte sagen, die wir brauchen oder einfach nur, was wir gerade in den Ofen schieben (z.B. mittelgroße Lasagne) und HA stellt den Backofen für uns passend ein. Klar, ist auch nur eine Spielerei und ich kann auch selber den Backofen einstellen …
Aber das ist für mich „Smart Home“. Ein System, das mir unterstützend zur Seite steht, ohne dass ich von mir aus aktiv werden muss. Und da bietet HA Voice für mich tatsächlich einen großen Mehrwert gegenüber anderen Systemen.
Ich warte sehnsüchtigst darauf, dass das ganze noch flüssiger und schneller funktioniert 🙂
„…sondern dass das System von sich auch „unaufgefordert“ anspricht, ob es was für mich erledigen kann.“
Das wäre dann wie auf dem Basar. Wer will das?
Das mich kontinuierliche eine Stimme fragt, was ich will?
Ich möchte den Zeitpunkt der Kommunikation schon selbst bestimmen.
Und auf die Frage müsste ich ja eh irendwetwas antworten, dann kann ich auch mit der Kommuniktion anfangen, wann ich möchte, ohne immer irgendwelche Anworten geben zu müssen wenn ich nichts möchte.
Für mich wäre der Sprachassistent einfach ein Ersatz für Google oder Amazon, nur halt lokal am besten auch mit lokaler K.I.
Und das ich damit Sachen wie Licht, Audio, Jalousien, Klimanalage etc. steuern können sollte versteht sich ja von selbst.
Gedanken wird HA wohl vorerst nicht lesen könnne, deshalb muss man die Automationen schon selbst anlegen.
Ich benutze HA mit Sprache. Sehr viel sogar.
Aber ich benutze dafür Siri und mache Shortcuts zu HA.
Hat auch den Vorteil dass es unterwegs fukntioniert.
Aber alles direkt und besser integriert in HA wäre wirklich super.