Computer Vision moving image

Computer Vision – Video ist das neue Text

Christin Löhr hat ihre Leidenschaft für Künstliche Intelligenz mit ihrem Job als Chief Product Owner bei movingimage vereint, indem sie sich ins Feld der Computer Vision gestürzt hat. In diesem Interview verrät sie, wie Computer Vision unsere Kommunikation verändern wird und wie sich Google daran anpassen werden muss.

Christin, wenn man durch Deinen Twitter-Feed liest, merkt man schnell, dass Du Tech versessen bist. Man findet jede Menge visionäre Ideen aber auch coole Alltags-Hacks: ich kann ein Video direkt in einer Outlook-Mail darstellen?

Versessen trifft es in der Tat ziemlich gut. Jeden Tag lese ich von neuen coolen Gadgets oder bahnbrechenden Fortschritten in der Wissenschaft, dass ich mich manchmal regelrecht überwältigt fühle. Ich erinnere mich noch ganz genau daran, wie ich mich früher mit einem Modem ins Internet einwählen musste. Heute, nicht mal 20 Jahre später, sind sämtliche Geräte in meiner Wohnung- einschließlich meiner Personenwaage- über WLAN mit meinem iPhone verbunden. Im Prinzip bin ich ständig auf der Suche nach einer Antwort auf die Frage: Wie können wir neue Technologien nutzen, um unseren Alltag zu vereinfachen und mehr Spaß daran zu haben?
Das war auch die Hauptmotivation hinter dem Outlook Video Add-In, an dem ich seit ein paar Monaten arbeite. Im Enterprise Umfeld ist es nahezu unmöglich Videos als Anhang zu versenden- entweder die Datei ist zu groß oder darf aus Sicherheitsgründen nicht empfangen werden. Das Resultat ist das gleiche, die Mail kommt ungeöffnet zurück. Für mich ist das ein echtes Problem, da ich unglaublich gern über das Medium Video kommuniziere. Es ist viel einfacher komplexe Probleme mit einem Screencapture zu erklären, außerdem geht es viel schneller kurz ein Video mit dem Handy aufzunehmen und ist somit effizienter. Ich persönlich finde es manchmal schwierig über das Telefon zu kommunizieren, weil ich die Intention oder Motivation hinter einer Aussage nicht nachvollziehen kann ohne das Gesicht der Person zu sehen. Ein Problem, das sich ganz einfach durch Video lösen lässt.
Die logische Konsequenz, die sich daraus ergibt, ist, ein Programm (in diesem Fall Outlook), das sowieso schon jeder im Unternehmen tagtäglich nutzt, um eine Video-Funktion zu erweitern. Zum Glück haben das unsere Kunden auch so gesehen, sodass wir die Idee in die Tat umsetzen konnte. Mit dem Add-In können Videos erstellt, mit Metadaten versehen, in die Cloud hochgeladen und ein Link zu einer Landingpage per Mail geteilt werden- alles ohne die gewohnte Arbeitsumgebung jemals verlassen zu müssen.

Du bist Expertin für maschinelles Sehen (Computer Vision). Was ist maschinelles Sehen? Wo kommt es schon heute zum Einsatz? Und wie wird es sich zukünftig entwickeln?

Ich würde nicht so weit gehen mich als Expertin zu bezeichnen- ich bin einfach neugierig. Seit ich klein war bin ich großer Science Fiction Fan und eigentlich schon immer fasziniert von Robotern. Deshalb habe ich auch angefangen mich näher mit dem Thema „Künstliche Intelligenz“ zu beschäftigen. Jetzt arbeite ich für eine Softwarefirma, die video platform services anbietet und ich war auf der Suche, wie ich diese beiden Leidenschaften miteinander verbinden kann. So bin ich auf Maschinelles Sehen gestoßen.
Maschinelles Sehen oder Computer Vision ist- kurz gesagt- ein Feld im machine learning, das versucht das visuelle System des Menschen nachzubilden. Wenn man so darüber nachdenkt, ist es schon faszinierend, was unser Gehirn alles leistet. Auf Basis von Daten, die unser Sehorgan liefert, kann es bekannte Gesichter erkennen, Rückschlüsse darauf führen, wie sich eine andere Person fühlt und Objekte erkennen und vor allem Klassifizieren. Obwohl wir immer noch nicht genau wissen, wie unser Gehirn das alles eigentlich macht, sind wir schon jetzt in der Lage Maschinen darauf zu trainieren, auf der Basis von Vergleichsdaten Bilder und Videos zu analysieren. Ich spreche hier von Technologien wie Gesichtserkennung, Mustererkennung und Emotionserkennung.
Vor ein paar Monaten war ich auf einer Konferenz, auf der mir ein kleiner Roboter über den Weg gelaufen ist. Er wollte mir einen neuen Lieferservice verkaufen. Das interessante daran war, dass er- ausgestattet mit einer auf Watson basierenden Emotionserkennung- „gesehen“ hat, wenn ich gelangweilt oder abgelenkt war und sofort seine Salesstrategie entsprechend angepasst hat. Das war super cool.
Ein Beispiel aus unserem Alltag, bei dem Computer Vision heute schon zum Einsatz kommt, ist die automatische Passkontrolle am Flughafen. Sowohl Pass als auch Gesicht werden gescanned und an Hand von festgelegten Parametern miteinander verglichen, um die Identität zu bestätigen.
Eines meiner Lieblingsanwendungsfälle ist allerdings eine App für Google Glass, die mit Hilfe von Emotionserkennung in Echtzeit menschliche Emotionen identifiziert und für Menschen, die an Autismus leiden, so aufbereitet, dass sie darauf reagieren und somit mit anderen Menschen kommunizieren können.
In Zukunft werden vermehrt Roboter eingesetzt werden, um Aufgaben zu erledigen, die für Menschen zu gefährlich sind, z.B. in der Katastrophenhilfe oder in Bergwerken. Sie werden Medikamente schnell zu abgelegenen Orten bringen, um Menschenleben zu retten und sie werden Alzheimer Patienten daran erinnern, ihre Medikamente zu nehmen. Für all diese Aufgaben werden sie die Fähigkeit zu sehen (Daten sammeln und verstehen), also Computer Vision, benötigen.

Du sagst, Computer Vision wird die Art, wie wir kommunizieren, verändern. Was meinst Du damit?

Die Art und Weise, wie wir kommunizieren, befindet sich schon seit einiger Zeit im Wandel. Öffnet man heute Facebook oder Twitter, dominieren Bild- und Videobeiträge schon längst unsere Newsfeeds. Auch Instagram wird immer Video-lastiger. Selbst Unternehmen erkennen langsam, dass Video nicht nur Sinn macht, um Produkte an den Konsumenten zu bringen, sondern ein perfektes Medium für die interne Kommunikation, Weiterbildung und Social Intranets bietet. User generated Content Kampagnen werden immer häufiger eingesetzt. Sie produzieren eine Unmenge an Daten, die in irgendeiner Form verwaltet werden müssen. Das wird schon abld nicht mehr manuell bewältigt werden können. Computer Vision wird dabei helfen, Prozesse zu automatisieren und definierte Workflows auszulösen. Keywords zum Beispiel können mit Hilfe von Gesichts- oder Objekterkennung direkt aus dem Videoinhalt generiert und das Video auf deren Basis automatisch weiterverarbeitet werden.
Tatsächlich wird ein wichtiger Anwendungsfall die Automatisierung von Prozessen sein. Zum Beispiel werden Menschen dank Gesichtserkennung nicht mehr persönlich zur Botschaft gehen müssen, um sich für eine Wahl in ihrem Heimatland zu registrieren. Menschen, denen es schwerfällt mit anderen Menschen zu kommmunizieren werden durch Emotionserkennung unterstützt werden. Sales Pitches werden von niedlichen kleinen Robotern durchgeführt, die automatisch ihre Strategie der Stimmung ihres Gegenübers anpassen (letzters sehe ich ambivalent, da es an sich super soll sein wird mit Robotern zu sprechen, ich allerdings bestimmt viel mehr Sachen kaufen werde, die ich eigentlich gar nicht brauche).

Wenn alles Video-lastiger wird, verbrauchen wir auch viel mehr Daten. Muss sich da was bei der Bandbreite im öffentlichen Mobilfunk was tun?

Ja und nein. Ja, es wird mehr Daten geben, die übertragen werden müssen und die Bandbreite muss entsprechend mitwachsen. Es gibt allerdings auch einen anderen Ansatz, mit dem dieses Problem angegenagen werden kann. Anstatt die Bandbreite zu erhöhen, werden die zu übertragenden Daten reduziert. HLS und MPEG Dash zum Beispiel nutzen einen Segmentierungs-Algorithmus, der eine Videodatei in Segmente unterteilt, die in verschiedenen Auflösungen vorliegen. Der Player fragt nun nur das entsprechende Segment an, das er gerade braucht und entscheidet abhängig von der zur Verfügung stehenden Bandbreite, welche Auflösung geladen wird. Dieses Verfahren wird als adaptive Bitrate Streaming bezeichnet und im Gegensatz zu dem vorher üblichen progressiven Download stellt es sicher, dass man die neueste Stranger Things Episode auf Netflix sogar in der S-Banh ruckelfrei und Bandbreitenschonend anschauen kann.

In einem Zeitalter, in dem ein Top-Google-Ranking zu einem wichtigen Keyword wie ein 6er im Lotto ist, ist das geschriebene Wort oftmals noch mächtiger als das Bild. Denkst Du, das wird sich ändern?

Auf jeden Fall! Googles Suchalgorithmus nutzt teilweise sogar schon Mustererkennung für das Ranking der Bildersuche. Früher hat es ausgereicht ein Bild mit genug Metainformation zu versorgen, um Google eine Ente als einen Porsche vorzumachen. Durch den Einsatz von Computer Vision ist das nicht mehr so leicht. Es ist nur eine Frage der Zeit, wann das gleiche auch für Videos passieren wird. Wenn wir erst einmal in der Lage sind, Videos nach ihrem Inhalt zu durchsuchen und nicht nur nach den Metainformationen, bin ich mr sicher, dass versteckte Schätze ans Licht kommen werden. Videos, die auf YouTube hochgeladen wurden, deren Ersteller sich aber nicht die Mühe gemacht haben, es auch mit entsprechenden Metadaten zu versehen.
Das Ranking der Videosuche wird dann darauf basieren, wie oft ein Keyword im tatsächlichen Videoinhalt auftaucht und nicht, wer die Seite, auf der es eingebettet wurde, oder den Quellcode mit den meisten Metinformationen angereichert hat.
In diesem Zusammenhang fällt mir ein Gespräch ein, dass ich mit einem Bekannten geführt habe. Er hat mir vor ein paar Wochen erzählt, dass seine Kinder, wenn sie etwas für die Schule recherchieren müssen, nicht mehr Google nutzen, sondern YouTube. Ein weiterer Hinweis für mich, dass Video über kurz oder lang das Medium Text überholen wird und auch Google wird darauf reagieren müssen.

Dieser Artikel stammt aus der Interviewsammlung Ada’s Heiresses 2017, in der SprecherInnen des Ada Lovelace Festivals 2017 Stellung nehmen. Hast Du Lust auf noch mehr #WomenInTech-Content? Dann kannst Du Dir Ada’s Heiresses hier kostenlos herunterladen.

Christin Löhr Computer VisionChristin Löhr ist Vordenkerin im digitalen Audio-/Video-Bereich. In ihrer Position als Chief Product Owner ist sie Teil des Leaderships bei movingimage und für das Product Team, bestehend aus Product Ownern, Produktmanagern und UX/UI Designern, verantwortlich.
Bereits während ihres Studiums der Medientechnologie an der TU Ilmenau entwickelte sie Workflow-Engines für Contentmanagement-Systeme im Medienbereich. Nach ihrem Abschluss übernahm Sie Produkt- und Projektverantwortung beim führenden deutschen Hersteller für Audio- und Videoschnittlösungen.
2014 wechselte Christin Löhr als Projektmanagerin zu movingimage, wo sie Großprojekte im Enterprise-Kunden-Bereich erfolgreich durchführte. Sie entwickelte aus einem Kundenprojekt heraus eine innovative Webcast-Lösung, die heute fester Bestandteil der movingimage Enterprise Video Platform ist.
Löhr engagiert sich ehrenamtlich in der STEMinist Community, indem sie Mädchen und Frauen für Technologie-Themen begeistert, und ist außerdem aktives Mitglied der Berlin Geekettes.