Home Assistant: Neues zu den eigenen Sprachassistenten
Die Heimautomatisierungs-Plattform „Home Assistant“ erfreut sich großer Beliebtheit in der Smart-Home-Szene. Stetig wird die Software weiterentwickelt und wächst um neue Funktionen. Die Open-Source-Software ermöglicht es Benutzern, verschiedene Geräte und Dienste zu verwalten und zu automatisieren, indem es Gerätschaften unterschiedlicher Hersteller verzahnt und untereinander kommunizieren lässt. Home Assistant kann auf einem Computer oder einem dedizierten Gerät wie einem Raspberry Pi oder Intel NUC installiert werden. Home Assistant unterstützt eine Vielzahl von Protokollen und Plattformen, darunter Z-Wave, Zigbee, Nest und Philips Hue.
Im Jahr 2023 will man den Fokus auf das Thema Sprachsteuerung legen. Der Home Assistant soll sich im kommenden Jahr per Sprache steuern lassen, hierbei greift man aber nicht auf Alexa oder den Google Assistant zurück. Um diese Ambitionen voranzutreiben, hat sich Mike Hansen, der Erfinder von Rhasspy Nabu Casa angeschlossen. Auch bei Rhasspy handelt es sich um Open-Source-Software. Diese erlaubt eine lokale Verarbeitung von Sprachbefehlen zur Sprachsteuerung diverser smarter Gerätschaften. Im Falle der Home-Assistant-Integration soll das Ganze in verschiedenen Sprachen möglich werden.
Mit „Assist“ hat man da bereits erste Gehversuche gemacht. In seiner ersten Version unterstützt Assist einfache Befehle in 22 verschiedenen Sprachen. Inzwischen ist man für gängige Smart-Home-Befehle sowie -Antworten bei 45 Sprachen angelangt und man nähert sich dem Ziel von 62 Sprachen. Nächster Meilenstein ist jetzt das Thema Audio.
Neben der Erfassung von Text hat man sich daher mit der Umwandlung von Sprache (Audio) in Text und vice versa beschäftigt. Damit stellt man für die Assist-Funktion eine vollständige Sprachschnittstelle zur Interaktion bereit. Logisch, so ein Sprachassistent benötigt auch an Hardware. Da unterstützt man vonseiten Assist ESPHome. Eine entsprechende Anleitung findet sich hier. Spannend auch eine Voice-over-IP-Integration, welche Telefone zum Sprachassistenten machen.
Aufbereitet hat man die Einstellungsseite für Sprachassistenten. Hier lassen sich mehrere Assistenten erstellen und Sprachdienste kombinieren. Dazu gehört auch ChatGPT. Für die Assistenten bietet man auch ein eigenes Debugging-Tool:
Home Assistant bietet einerseits die Unterstützung eines Sprachassistenten in Verbindung mit der Home Assistant Cloud, auf der anderen Seite auch eine vollständig lokale Variante. Erstgenannte Cloud-Option umfasst eine Ende-zu-Ende-verschlüsselte Verbindung zu Text-to-Speech-Diensten (TTS) sowie Speech-to-Text. Spannend: Man sei da auch mit Dialekten vertraut, aber wohl kaum den Deutschen. Wer also Abonnent ist, der benötigt keine zusätzliche Hardware oder Software für einen Sprachassistenten auf Home-Assistant-Basis.
Außerdem wird es auch Optionen geben, den Sprachassistenten lokal auszuführen. Hierzu hat man mit „Piper“ ein eigenes Modell für lokale TTS-Funktionalität entwickelt, welches für den Betrieb auf einem Raspberry Pi 4 optimiert wurde. Man setzt da auf maschinelles Lernen für eine realistisch klingende Sprachausgabe. Je nach Leistungsfähigkeit der CPU kann man beispielsweise mit einem Intel Core i5 bis zu 17 Sekunden Audio binnen einer Sekunde Verarbeitungszeit generieren. Deutsch zählt zu einer der 18 Sprachen, in denen Piper verfügbar ist. Piper kann man auch als eigenständigen Docker-Container betreiben und mit Sprachschnipseln als Trainingsdaten bei der Entwicklung helfen.
Mit Whisper kommt auch das quelloffene Sprach-zu-Text-Modell von OpenAI zum Einsatz. Hier ist man inzwischen in der Lage, dieses auf Einplatinencomputern und kleinen Servern zu betreiben. Integration findet mit Wyoming auch ein weiteres, offenes Sprach-Ökosystem.
# | Vorschau | Produkt | Preis | |
---|---|---|---|---|
1 | Samsung QLED 4K Q64D Fernseher 55 Zoll, Samsung TV mit Quantum Prozessor Lite 4K, 100 % Farbvolumen,... | 679,44 EUR | Bei Amazon ansehen | |
2 | Samsung TV QLED 55Q60D, 138 cm, Smart, 4K Ultra HD (Model 2024) | 594,00 EUR | Bei Amazon ansehen | |
3 | Samsung QE43Q60D | 433,58 EUR | Bei Amazon ansehen |
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Ich kann mich mit Sprachbedienung nicht anfreunden. Der Echo fristet schon lange als Bluetooth Lautsprecher bei den Kindern sein Dasein, die Dots sind im Elektroschrott gelandet. An diversen Smartphones habe ich natürlich die Assistenten ausprobiert, mir persönlich bringt das aber null Vorteile, also wieder deaktiviert. Die Sonos-Lautsprecher haben zwar Mikrofone, da habe ich aber keinen Assistenten aktiviert. Auch bei Home Assistant ist es mir lieber irgendwo einen Schalter zu betätigen oder an einem Touchscreen an der Wand. Das einzige wo ich Sprachbedienung schätze und wo es bis jetzt immer funktioniert ist im Auto, um einen Telefonanruf zu starten.
Ich nutze mein Echo nur noch zum Licht an/aus und TV an/aus und wie das Wetter gerade ist.
Für Licht an/aus ist das Echo semi gut da es kaum Konfigurationsmöglichkeiten gibt die ein wenig in die Tiefe gehen (wie z.B. das ich nicht aus versehen im ganzen Haus das Licht an/aus schalten kann).
Andere Dinge wie auf Lokale Geräte durchgreifen die keine Alexa Unterstützung haben gehen mit dem Echo nur durch extrem umständliche Wege was man kaum mit guten Gewissen nutzen kann.
Und natürlich das Alexa auch einfach mal nicht geht oder die Sensoren 4-5 Sekunden Bedenkzeit haben. Das nervt alles.
Ich hatte testweise Rhasspy ausprobiert mit einem 2€ USB Microphone bei gleichzeitigem Musikhören und Kindergeschrei.
Ging erstaunlich gut und mit quasi 0 Verzögerung – allerdings nur für vordefinierte Aktionen. Das ist aber gerade für diesen Anwendungszweck kein Problem. Hotword Erkennung (das man ja auch selber aussuchen kann) war super. Freie Fragen sind aber Müll, muss ich allerdings sagen nutzen wir so selten das ich da problemlos verzichten kann.
Ich freu mich schon endlich sagen zu können „Hotword: schalte TV auf YouTube um“.
Obwohl ich das Thema insgesamt sehr interessant finde muss ich gestehen, dass es bei mir eig nur das Setzen von timern fürs Kochen usw ist, was ich primär verwende.
Willkommen im Club… 🙂
Manchmal stelle ich Timer per Sprachbefehl auf der Pixel Watch, weil das einfacher ist als auf dem kleinen Ding rumzutippen.
Was richtig cool wäre, wenn es einen Echo-Hack geben würde um die Sprach-Assis dort zu installieren. Würde sofort umsteigen, wenn es Dot-Hardware-Alternativen geben würde für den Smarthome-Assistant, aber Smartphone oder Tablet habe ich Zuhause nicht immer in rufnähe.
Schade das Snips.ai von Sonos aufgekauft wurde und nicht opensource geblieben ist … Wäre toll wenn Sonos-Voice sich in SmarthomeAssistant integrieren würde!
Meine Frau ist so genervt von Alexa. Siri und Google Home sind alle bei uns rausgeflogen, da die zuviel „feedbacken“ … wie habe alle 12 Lampen ausgeschaltet.
Was ich mir für die nahe Zukunft wünsche: Dass diese Sprachassistenten endlich mal mit einem dieser Sprachmodelle verbunden werden, damit Alltagssprache verstanden wird. Gerade Google enttäuscht in dieser Hinsicht maximal. Denn obwohl die viel Expertise mit Sprachmodellen haben, versteht dieser verdammte Google Assistant die einfachsten Formulierungen nicht, wenn sie nicht exakt so hingebrummelt werden, wie Google das vorgesehen hat. Weicht man davon ab, sind die Ergebnisse einfach nur nervig. Ich bin mal gespannt, was bei HA herauskommt, ich habe das bei mir sowieso im Einsatz und bin sehr zufrieden damit.
Ich bin mir sicher dass da was entsprechendes in absehbarer Zeit kommen wird. Es gibt ja neuerdings auch freie Sprachmodelle in der Art von ChatGPT. Muss man nur schauen, wie man die Hardwareanforderungen erfüllt, die das mit sich bringt, da werden viele Home Assistant Maschinen nicht genügend Power für haben.