Seit gestern gibt es die developer preview (alpha v1) der Google Assistant API zur freien Verfügung. Auf der Developer Webseite sind neben der Ankündigung einige Samples veröffentlicht. Der in Python geschriebene Code steht auch für den Raspberry Pi zur Verfügung.

Google Assistant

Der Google Assistant ist ein persönlicher Assistent von Google für Android, Google Home und den Messenger Google Allo, der sowohl gesprochene als auch eingegebene natürliche Sprache empfängt und verarbeitet. Die Software ist der Nachfolger von Google Now. (Quelle: Wikipedia) In diversen Android Produkten von Smartphones bis zum Smart TV ist der Assistent im Einsatz. Jetzt können alle Entwickler von dem Dienst profitieren.

Google Assistant mit dem Raspberry Pi

Auf der Beispiele Webseite findet sich eine kleine Anleitung zur Einbindung des Dienstes in den Raspberry Pi. Die Komponenten sind schnell gekauft. Neben dem Pi selber wird nur ein Mikrofon und ein Lautsprecher benötigt. Nach der Einrichtung erfolgt die Erstellung eines Projektes und die Generierung von API Keys.

Das Sample selber steht über den Python Paketverwaltung zur Verfügung und lässt sich mit wenigen Zeilen Code installieren.

 

Blizzard arbeitet zusammen mit der Firma DeepMind zusammen mit dem Ziel Starcraft 2 eine API zur Verfügung zu stellen, mit dessen Hilfe sich Künstliche Intelligent entwickeln lässt. Die Google-Tochter DeepMind hat in der Vergangenheit bereits Schlagzeilen gemacht als sie mit ihrem AlphaGo System das Go Spiel ernsthaft bespielte.

API Erweiterungen für KI Entwicklung

Anhand eines kurzen Videos lassen sich Erweiterungen für Heatmaps erkennen. Diese scheinen Bedrohungsräume und Einflussgebiete zu definieren. Außerdem können die Verläufe von vergangenen Spielen analysiert werden. Bei der API bleibt zu hoffen, dass diese auch für andere interessierte zur Verfügung gestellt werden. Somit wäre ein schönes Betätigungsfeld für ambitionierte Entwickler geschaffen. Laut Deep Mind ist Starcraft 2 aufgrund seiner unvollständigen Informationen (Fog of war), Ressourcenmanagement, unterschiedlichen Rassen und Langzeitstrategien besonders komplex und daher gut geeignet als nächstes Betätigungsfeld.

Quelle: Starcraft 2: Schnittstelle für Deep-Learning-Intelligenz ab Sommer 2017 | heise online

Sonnet

Nach einer kurzen Suche auf der DeepMind Webseite gibt es einen Hinweis auf das Forschungsgebiet. Die Bibliothek Sonnet steht auf der Webseite bzw. auf GitHub als open source Version zur Verfügung. Basierend aus der Entwicklung von TensorFlow können mit Sonnet neuronale Netze erstellt werden.

Raspberry Pi Gesichtserkennung mit Microsoft Cognitive Services

Microsoft stellt mit den Microsoft Cognitive Services eine Reihe von Services für Bilderkennungsverfahren zur Verfügung. Die Face API bildet eine gute Schnittstelle um dem Raspberry Pi die Gesichtserkennung zu ermöglichen. Mit Hilfe einer Webcam und etwas JavaScript und Node.js lassen sich Bilder aufnehmen und zur Analyse hochladen. Der Cloud-Dienst ist dabei bis zu einer gewissen Menge von Abfragen kostenlos nutzbar.

Pakete installieren

Project Oxford for Node.js ist eine einfach zu nutzende Bibliothek um die Schnittstelle nutzen zu können.

$ mkdir face
$ cd face
$ npm install project-oxford

Account erstellen und API Key generieren

Auf der Microsoft Cognitive Services Webseite ist ein Account zu erstellen. Nach einer kurzen E-Mail Verifikation kann dort ein API Key erstellt werden. Dazu den Punkt „Face Preview – 30,000 transactions per month, 20 per minute.“ anklicken und nach Bestätigung der Lizenz den Subscribe Button klicken. Der Key erscheint nun in der Übersicht.

Foto generieren

Ein nützliches Programm für die Aufnahmen mit einer Webcam ist fswebcam. Es lässt sich einfach über die Kommandozeile zum Erstellen von Snapshots nutzen. Die Installation erfolgt direkt über das Paket.

$ sudo apt-get install fswebcam

Um mit dem Programm ein Screenshot ohne Zeitstempel im Bild aufzunehmen erfolgt der Aufruf mit der entsprechenden Option.

$ fswebcam --no-banner 001.jpg

Gesichter erkennen

Der folgende Code ist von der oben genannten project-oxford package Webseite übernommen. Es wurden aber Fehler behoben (faceAttributes anstelle von attributes) und der Code ist um die Anzeige mehrerer Gesichter ergänzt.

$ nano face.js
# oder vi ;-)
var oxford = require('project-oxford'),
    client = new oxford.Client('xxx KEY HIER EINTRAGEN xxx');

client.face.detect({
    path: '001.jpg',
    analyzesAge: true,
    analyzesGender: true
}).then(function (response) {
    for(var i = 0; i < response.length; i++) {
        console.log('Gesicht ' + i);
        console.log('  Alter: ' + response[i].faceAttributes.age);
        console.log('  Geschlecht: ' + response[i].faceAttributes.gender);
        console.log('  Position: Oben ' + response[i].faceRectangle.top + ' - Links ' + response[i].faceRectangle.left);
        console.log('  Position: Breite ' + response[i].faceRectangle.width + ' - Hoehe ' + response[i].faceRectangle.height);
    }
});

Aufnehmen und verschicken

Für die Einbindung von fswebcam bietet das node-webcam Paket einen Wrapper. Die Installation erfolgt wieder über npm.

$ npm install node-webcam

Das neue Paket binden wir nun in den Code mit ein. Da Dateiausgaben asynchron durchgeführt werden muss die Gesichtserkennung im Function Callback des node-webcam Codes stehen (oder als eigene Funktion). Trotz des Ausgabetyps jpeg endet der Dateiname in jpg!

var NodeWebcam = require('node-webcam');

var opts = {
    quality: 100,
    output: "jpeg",
    verbose: true
}

var oxford = require('project-oxford'),
    client = new oxford.Client('xxx KEY HIER EINTRAGEN xxx');

NodeWebcam.capture('001', opts, function(err, data) {
    if(!err) {
        console.log('Image created!');
    }

    client.face.detect({
        path: '001.jpg',
        analyzesAge: true,
        analyzesGender: true
    }).then(function (response) {
        for(var i = 0; i < response.length; i++) {
            console.log('Gesicht ' + i);
            console.log('  Alter: ' + response[i].faceAttributes.age);
            console.log('  Geschlecht: ' + response[i].faceAttributes.gender);
            console.log('  Position: Oben ' + response[i].faceRectangle.top + ' - Links ' + response[i].faceRectangle.left);
            console.log('  Position: Breite ' + response[i].faceRectangle.width + ' - Hoehe ' + response[i].faceRectangle.height);
        }
    });
});

Emotionen erkennen

Das Erkennen von Emotionen ist ebenfalls einfach umzusetzen. Allerdings weißt das Paket nicht auf die Notwendigkeit eines zweiten Clientobjektes und eines weiteren API Keys hin. Auf der Microsoft Webseite muss ebenfalls das API „Emotion – Preview – 30,000 transactions per month, 20 per minute.“ aktiviert werden. Der API Key ist dann an einen weiteren client (hier emoclient (Haha, super Name, ist mir aber erst später nach dem Schreiben aufgefallen)) zu übergeben.

var oxford = require('project-oxford'),
    emoclient = new oxford.Client('xxx ANDEREN KEY HIER EINTRAGEN xxx');

emoclient.emotion.analyzeEmotion({
    path: '001.jpg',
}).then(function (response) {
    console.log(response);
});
Spracherkennung, Chatbot mit Watson und Raspberry Pi

IBM stellt in seiner Bluemix Cloud-Plattform als Service (PaaS) unter anderem die Dienste von Watson Analytics zur Verfügung. Mit Hilfe der Services Speech to Text (Spracherkennung), Conversation (Chatbot) und Text to Speech (Sprachausgabe) lässt sich auf dem Raspberry Pi ein intelligentes System erschaffen. Durch die tiefere Integration der Dienste können hiermit auch Haussteuerungen oder Kundeninformationssysteme (KIS) realisiert werden.

Grundlage ist neben der Anschaffung eines Raspberry Pi (Einkaufsliste) mit allen relevanten Komponenten, die komplette Einrichtung des Systems. Darauf baut die Installation, der für Watson notwendigen Teile, auf. Zusätzlich ist ein USB Mikrofon notwendig und Lautsprecher oder ein Fernseher mit HDMI Anschluss.

HINWEIS: Die hier beschriebene Installation ist auf Deutsch. Leider sind nicht alle Watson Dienste für die deutsche Sprache erhältlich. Insbesondere die Spracherkennung funktioniert noch nicht auf Deutsch.

Mikrofon prüfen

Bei dem Raspberry Pi 3 funktioniert der Playstation Eye Treiber direkt.

$ lsusb
Bus 001 Device 006: ID 1415:2000 Nam Tai E&E Products Ltd. or OmniVision Technologies, Inc. Sony Playstation Eye

Zum Testen reicht das Aufnehmen und Abspielen einer kurzen Datei. Hierbei helfen die Advanced Linux Sound Architecture (ALSA) Tools.

$ sudo apt-get install alsa-base alsa-utils

$ arecord -D plughw:1,0 -f cd test.wav
$ aplay test.wav

Speech to Text (Spracherkennung)

Der folgende Teil basiert auf den Beispielen des TJBot welcher von IBM selber zur Verfügung gestellt wird.

Der erste Schritt besteht darin, das Node.js Repository einzubinden. Dies ermöglicht die Installation der aktuellsten Version. Danach lässt sich der Code von Github.com auschecken und die Abhängigkeiten installieren.

$ sudo apt-get update
$ sudo apt-get dist-upgrade
$ curl -sL https://deb.nodesource.com/setup_6.x | sudo -E bash -
$ sudo apt-get install -y nodejs

$ git clone https://github.com/ibmtjbot/tjbot.git
$ cd tjbot/recipes/speech_to_text
$ npm install

Jetzt ist ein guter Zeitpunkt erreicht einen (kostenlosen) Bluemix Account anzulegen. Der Prozess ist selbsterklärend. Andernfalls gibt es ein kleines PDF dazu. Nach der Einrichtung des Accounts ist unter Services – Watson – Text to Speech ein neuer Dienst anzulegen. In der Einstellung des Services stehen unter dem Punkt Serviceberechtigungsnachweise – Berechtigungsnachweise anzeigen die Zugangsdaten. Diese sind in der config.js zu hinterlegen.

Der Beispielcode sieht das Einschalten einer mehrfarbigen LED von Adafruits vor. Ich habe diese LED nicht und war nur an der Ausgabe des Dienstes interessiert. Ich habe daher eine Kopie der Hauptdatei erstellt und den Code innerhalb der LED Steuerung auskommentiert. Nach dem Starten lauscht der Raspberry Pi auf die Sprache und wartet bis zur ersten Sprechpause. Die erkannten Sätze erscheinen dann in der Textausgabe.

$ vi config.js

$ cp stt.js stt_console.js
# Licht Code auskommentiert
$ sudo node stt_console.js

Update: Der vereinfachte Code ohne die Lichtsteuerung kann jetzt in meinem Github.com Projekt heruntergeladen werden.

$ git clone https://github.com/spech66/watson_speech_to_text.git
$ cd watson_speech_to_text
$ npm install
$ vi config.js
$ sudo node speech_to_text.js

Chatbot und Text to speech (Sprachausgabe)

Mit den beiden zusätzlichen Services ist das Erstellen von interaktiven Systemen sehr einfach. In dem oben bereits ausgecheckten Code findet sich das Verzeichnis conversations. Hier lauscht der Raspberry Pi auf ein Aktivierungswort (Watson als Default) und schickt den Satz nach dem Schlüsselwort an den Conversations Dienst, dieser ermittelt eine sinnvolle Antwort und schickt den Text zurück. Der Text kann dann durch den Sprachausgabedienst in eine Audiodatei umgewandelt werden, die sich dann abspielen lässt. Zuerst die Services Text to Speech und Conversation aktivieren. Danach sind in beiden Services wieder die Zugangsdaten hinterlegt. Diese gehören in die config.js Datei.

$ cd ~/crmcopter/tjbot/recipes/conversation
$ vi config.js

Damit eine sinnvolle Konversation entstehen kann muss noch ein Dialog angelegt werden. In dem Service Conversatin gibt es den Button „Launch Tool“, hier gelangt man zum eigentlich Designer. Nach dem Anlegen eines Workspaces kann unter der Übersicht – Workspaces – View Details die Workspace ID kopiert werden.

Intents

Mit den Intents sind Schlüsselwörter und Sätze für den folgenden Dialog zu definieren. Für das Beispiel sollten mindestens zwei Intents („Hello“ und „Goodbye“) erstellt werden. Jeder Intent erhält dazu eine Reihe von möglichen Alternativen Worten und Sätzen (siehe Bild unten).

Dialoge

Dialoge verknüpfen Intents zu einer Verknüpfung von Aktionen und Reaktionen. Mit der Hilfe von If Abfragen können die Intents ermittelt werden (siehe Bild). Die Reaktion definiert die Rückgabe des Textes des Service.

Starten

    sudo node conversation.js

WATSON und TEXT sagen

IBM Watson Dialog
IBM Watson Dialog
IBM Watson Intents
IBM Watson Intents
IBM Bluemix Watson Raspberry Pi
IBM Bluemix Watson Raspberry Pi

Anki OVERDRIVE Strecken

Anki OVERDRIVE ist wohl DAS Weihnachtsgeschenk von 2015. Der Trend ist natürlich auch an mir nicht vorbei gegangen. In dieser kleinen Reihe schreibe ich über die ersten Experiment mit dem Anki OVERDRIVE Starter Kit und später der Entwickler SDK.

Die folgenden Strecken entstammen dem Starter Kit und einigen Erweiterungen. Nach diversen Kaufrunden sind auch alle Autos mittlerweile in meinem Besitz.

Kleiner Doppelkreis
Kleiner Doppelkreis
Doppelkreis Kreuzung
Doppelkreis Kreuzung
Beule
Beule
Zwei Ebenen
Zwei Ebenen
Große Kreise
Große Kreise