Adatsorok és grafikonok

Réges-régen kezdődött egy Raspberry Pi Model A-ra kötött DS18B20 hőmérséklet szenzorral. Cron futtatta meg 5 percenként a kis Python scriptet, ami lekérte a szenzor adatait és letárolta egy SQLite adatbázisban. Egy másik script óránként generált az adatokból gyönyörű SVG grafikonokat Pygal segítségével.

Egy a régi grafikonok közül

Telt-múlt az idő, a szenzor lecserélődött egy HTU21D-F modellre, ami egy kicsit pontosabb volt és már páratartalmat is tudott mérni. Aztán egy BME680-ra, ami légnyomás és levegőminőség adatokat hozott magával. A Raspberry Pi sem ragadt le a múltban, két szenzor csere között frissült Zero W-re.

A grafikon generáló script valahol menet közben elromlott, de senkinek sem hiányzott annyira, hogy megjavítsa. A mérési adatok viszont továbbra is rendületlenül érkeztek az adatbázisba. Egészen 2017 novemberéig, amikor is elkezdtek 5 percenként jönni a levelek a gépről, hogy valami miatt nem fut le a script. Gyors megoldásként ki lett véve a megfelelő sor a crontab-ból, hogy majd ha hazaérek, megjavítom.

Ugrás 2018 augusztusára, ahol történetünk lényegében elkezdődik. Ekkor realizáltam, hogy már lassan egy éve nem jönnek az adatok, rendbe kellene rakni. Ez gyakorlatban egy újraindítást jelentett, amitől varázslatos módon megjavult, de amit érdemes megcsinálni, azt érdemes túlbonyolítani is. Elérkezett az idő, hogy a régi cron-os, SQLite-os, nem működő grafikonos megoldás helyét valami modernebb dolog vegye át.

Tárolás

Manapság az ilyen jellegű adatokat time series adatbázisban trendi tárolni, úgyhogy kerestem is egy szimpatikusat. A választás az InfluxDB-re esett, de senki se emlékszik már pontosan, hogy miért. Annyi biztos, hogy ARM és Pi kompatibilis, egyszerűen telepíthető és használható.

# wget https://dl.influxdata.com/influxdb/releases/influxdb_1.6.1_armhf.deb
# dpkg -i influxdb_1.6.1_armhf.deb
# service influxdb start

A letöltési oldalon megtalálható a legfrissebb verzió, annyi csak a trükk, hogy nincs listázva az ARM-es deb csomag, de ha az "Ubuntu & Debian" résznél szereplő URL-ben átírjuk az amd64-et armhf-re, akkor simán működik. Első körben a kis Python script lett kibővítve, hogy az adatbázis mellett az InfluxDB-be is küldje be az adatokat.

import requests

url = 'http://127.0.0.1:8086/write?db=metrics&precision=s'
data = 'environment temperature={},humidity={} {}'.format(temp, hum, int(timestamp))

requests.post(url, data=data, headers={'Content-Type': 'application/octet-stream'})

Ez után készült egy migrációs script is, amivel a korábbi adatok is átkerültek InfluxDB-be. A select query-ből jól látszik, hogy az első szenzor csak hőmérsékletet tudott mérni, a páratartalom csak később lett hozzáragasztva.

import sqlite3
import os
import requests

conn = sqlite3.connect('data.sq3')
c = conn.cursor()

rows = []
for row in c.execute('select date, value, humidity from temp_logs order by id'):
    if row[2]:
        rows.append('environment temperature={},humidity={} {}'.format(row[1], row[2], int(row[0])))
    else:
        rows.append('environment temperature={} {}'.format(row[1], int(row[0])))

url = 'http://127.0.0.1:8086/write?db=metrics&precision=s'
headers = {'Content-Type': 'application/octet-stream'}
batch_size = 10000

for i in xrange(0, len(rows), batch_size):
    data = '\n'.join(rows[i:i + batch_size])
    requests.post(url, data=data, headers=headers)

Megjelenítés

Az InfluxDB fejlesztői egy egész TICK (Telegraf, InfluxDB, Chronograf, Kapacitor) stack-nek nevezett megoldást szállítanak, amiből a Chronograf képes a tárolt adatok böngészésére és dashboard-okon való megjelenítésére. Ezzel mit sem törődve a Grafana-t választottam az adatbázisom frontendjeként. Hasonlóan egyszerűen telepíthető jószágról van szó, a gyárilag jövő konfigurációval se kell sokat babrálni és még a letöltés sem igényel a korábbihoz hasonló trükközést.

# wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana_5.2.2_armhf.deb
# dpkg -i grafana_5.2.2_armhf.deb
# service grafana-server start

Az új Grafana dashboard

Boldogan böngészhettem az adataimat, de azért négy idősor nem ad okot túl sok boldogságra. Még több metrikát kell szerezni! Szerencsére ennek a TICK-nek az egyik tagját, nevezetesen a Telegraf-ot pont erre találták ki. Csak feltelepítjük egy (vagy több) gépre, beállítjuk az InfluxDB elérhetőségét és már özönlenek is az adatok a CPU terheltségéről, a partíciók állapotáról vagy éppen a memória kihasználtságról, hogy csak néhányat említsek.

[[outputs.influxdb]]
  urls = ["http://127.0.0.1:8086"]

A legjobb, hogy még csak a grafikonokat sem kell kézzel legyártanunk, a Grafana oldaláról néhány kattintással beimportálhatóak a Telegraf által generált adatokat vizualizáló dashboard-ok (mint például ez vagy ez).

Telegraf dashboard

Ütemezés

Az utolsó lépés a cron kiváltása volt. Micsoda véletlen, hogy pont feltelepült egy Telegraf, ami jeleskedik a metrikák ütemezett gyűjtésében. Csak rá kell bírni, hogy a szenzor adatait is elvigye.

Szerencsére nem igényelt sok győzködést, egy meghívható parancsra van szüksége, ami megfelelő formátumban adja vissza az adatokat.

[[inputs.exec]]
  commands = ["/usr/local/bin/query_sensor.sh"]
  timeout = "5s"
  data_format = "influx"

A script is átesett még egy utolsó módosításon, hogy a közvetlen adatbázis kapcsolat helyett inkább csak a kimenetre írja ki az adatokat és ezzel a régi megoldás utolsó eleme is felszámolásra került. Az új rendszer pedig azóta is problémák nélkül gyűjti a különböző információkat.

Játékos programozás

Nem emlékszem már, hogy mi lehetett az első programozós játék, amivel találkoztam, de valami miatt a legemlékezetesebb a Manufactoria volt. A Flash játékok korszakának egy igazi gyöngyszeme. Kész csoda, hogy ennyi év után még sikerült megtalálni, főleg, hogy csak annyira emlékeztem belőle, hogy valami robotos és futószalagos.

A történet szerint tesztkészülékeket kell építenünk, hogy kiszűrjük a hibás robotokat. Később pedig, ahogy az eszköztárunk bővül, már át is kell programoznunk őket, hogy megjavuljanak.

Manufactoria

Talán egy kicsit kilóg a sorból, első ránézésre nem is tűnik programozásnak (pedig még egzotikus programozási nyelvet is csináltak belőle), de ahogy haladunk a nehezebb és nehezebb pályák felé, úgy kezd egyre inkább egy formális nyelvek és automaták gyakorlatra emlékeztetni.

Érdemes az első megoldás felett érzett túláradó öröm után még visszatérni a feladatra és megpróbálni kevesebb elemből megoldani. Sajnos a játék nem nagyon támogatja ezt, nem lehet egyszerre több megoldásunk egy pályához, de egy URL formájában elmenthetjük a megoldást kézzel.

Megoldás optimalizálás előtt és után

Vizuális programozás

A Human Resource Machine akár egy leegyszerűsített Scratch is lehetne, amiben a drag and drop szerkesztő segítségével kell irodai dolgozókat rábírnunk a munkára egy olyan irodában, ahol gyanúsan sok a megoldandó logikai feladvány.

Human Resource Machine

Ahogy haladunk előre a játékban, úgy kapunk egyre több építőelemet a programjainkhoz. Feladatonként három megoldást tárolhatunk, amire szükségünk is lesz, ha az extra kihívásokat is teljesíteni szeretnénk, amikben méretre (használt utasítások száma) és sebességre (lefuttatott utasítások száma) kell optimalizálni a programokat.

Egyszerű program méretre és sebességre optimalizálva

A bejegyzés írásakor még csak készülőben volt a játék folytatása 7 Billion Humans néven, ahol már irodai dolgozók egész hadával vethetjük bele magunkat a párhuzamos programozás gyönyöreibe egy még inkább Scratch-re emlékeztető felület használatával.

7 Billion Humans

A Manufactoria fejlesztője is készített később egy vizuális szerkesztővel rendelkező programozós játékot, ami a Silicon Zeroes nevet viseli. Kipróbálni még nem volt alkalmam, de a képek és YouTube videók alapján elég érdekesnek tűnt ahhoz, hogy azért megemlítsem.

Silicon Zeroes

Rekreációs programozás Assembly nyelven

A Human Resource Machine könnyed kinézete után egy erős váltás a Zachtronics által fejlesztett TIS-100, amiben egy érdekes architektúrájú számítógépet kell assembly és párhuzamos programozás erejével a feladatok megoldására bírnunk.

TIS-100

A spártai felülettel remekül harmonizál a játékhoz mellékelt 14 oldalas PDF dokumentum a nyelv leírásával, ami a tutorial-t is hivatott helyettesíteni.

Itt is három megoldást tarthatunk meg egy feladathoz. A programokat sebességre, használt node-ok számára és méretre optimalizálhatjuk. A pálya sikeres végrehajtása után kapunk három hisztogramot, hogy ebben a három metrikában hogyan teljesít a programunk a többi játékos megoldásához képest.

A TIS-100 fejlesztőinek egy másik játéka a SHENZHEN I/O. A kinézetre már sokkal barátságosabb játékban egy kínai elektronikai cég új alkalmazottjaként különböző áramkörök megtervezése és felprogramozása a feladatunk. A szereppel való azonosulást elősegíti, hogy a játék egy operációs rendszernek néz ki, a feladatokat email-ben kapjuk és még egy pasziánsz is van a "gépünkön".

SHENZHEN I/O

Nem csak a játék fejlődött a TIS-100 óta, hanem a dokumentációt is egy új szintre emelték. Ebben a játékban már egy 47 oldalas PDF-et kapunk, ami a programozási nyelv (assembly) és a kitalált elektronikai komponensek leírását tartalmazza. Hangulatra teljesen hozza a valódi komponensekhez adott dokumentációkat.

Az elmenthető megoldások száma ebben a játékban nincs korlátozva. A dizájnokat gyártási költség (használt komponensek ára), energia felhasználás (lefuttatott utasítások száma) és a program mérete szerint optimalizálhatjuk. A pálya sikeres megoldása után - a Zachtronics játékoknál megszokott módon - hisztogramokat is kapunk arról, hogy ez mennyire sikerült.

Ha már a programozás játék változatát is unjuk, de továbbra is valami olyasmire vágyunk, ami megmozgatja agyunk ritkán használt tekervényeit, érdemes a Zachtronics által fejlesztett többi logikai játékot is megnézni, mint például az Infinifactory, az Opus Magnum vagy a SpaceChem.

ELK, diétára fogva

CC0 image by evondue

Az előző bejegyzésben egyedi megoldásokkal kísérletezgettünk, most pedig megnézzük a logolás világának iparági sztenderdjét, az Elastic Stack-et... egy kis csavarral.

Az Elasticsearch az a szervereknek, mint a Chrome az asztali gépeknek. Végtelen mennyiségű memóriát képes felemészteni. Vannak környezetek, ahol meg is kapja ezt, de mi továbbra is maradunk a hobbi felhasználás szintjén és megpróbáljuk felvarázsolni a legkisebb DigitalOcean-ös droplet-re. Ez jelenleg egy 1 GB memóriával és 1 vCPU-val rendelkező instance-t jelent.

Előkészületek

Fogjunk egy frissen felhúzott Ubuntu 16.04-et. Ez alapjáraton úgy 60 MB memóriát használ, de nyerhetünk még egy kicsit, ha megszabadulunk a snapd és a do-agent csomagtól (ha bekapcsoltuk a monitoringot a droplet létrehozása során).

$ apt remove snapd do-agent

Így már egy kicsit kellemesebb 45 MB környékén járunk.

Jöhet az Elasticsearch PGP kulcsának és APT repository-jának importálása:

$ wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | apt-key add -
$ echo "deb https://artifacts.elastic.co/packages/6.x/apt stable main" | tee -a /etc/apt/sources.list.d/elastic-6.x.list
$ apt update

Valamint a JRE telepítése:

$ apt install default-jre

Ezzel az előkészületek végére értünk, jöhet a lényeg.

Kibana

A Kibana-val kezdjük a sort, mert annak a memória felhasználását nem nagyon tudjuk befolyásolni, úgyhogy kénytelenek leszünk az Elasticsearch-öt a fennmaradó mennyiséghez igazítani.

$ apt install kibana nginx
$ service kibana start

A Kibana-t az alapértelmezett beállításokkal fogjuk használni, az nginx-nek viszont meg kell mondani, hogy proxy-zzon.

/etc/nginx/sites-enabled/default
location / {
    proxy_pass              http://127.0.0.1:5601;
    proxy_set_header        Host $host;
    proxy_set_header        Referer "";
    proxy_set_header        X-Real-IP $remote_addr;
    proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
}

A memória használatunk itt már 170 MB környékén jár.

Elasticsearch

El is érkeztünk a lényeghez. Nem meglepő, hogy egy kis telepítéssel fogunk kezdeni.

$ apt install elasticsearch

Az elindítással itt még nem is érdemes próbálkozni, mert az alapértelmezett beállításokkal több memória kellene neki, mint amennyi a gépben összesen van, úgyhogy egy kis config módosítással kezdünk:

/etc/elasticsearch/jvm.options
-Xms512m
-Xmx512m

És ezek után már el is tudjuk indítani:

$ service elasticsearch start

Elértük a 850 MB-ot, maradt még egy kis feleslegünk is, amit használhat a rendszer. Minden szépnek és jónak tűnik, de próbáljunk csak meg mondjuk egy apt update-et futtatni és máris érdekes és változatos hibaüzeneteket kaphatunk:

Unknown error executing apt-key

Could not execute 'apt-key' to verify signature (is gnupg installed?)

Couldn't spawn new process

FATAL -> Failed to fork.

Cannot allocate memory

Szerencsére az utolsó sor már elég világos. Sejteni lehet, hogy mi a probléma. Irány a jvm.options! Egy 448-as vagy 384-es értékkel érdemes megpróbálkozni. Vagy akár le is kapcsolhatjuk a Kibana-t arra az időre, amíg valami mást is szeretnénk csinálni a szerveren.

Logstash

A Logstash egy Elasticsearch-höz hasonló Java-s memóriavámpír. Érezhető, hogy nem igazán van már neki hely. Ezt egy ügyes kis trükkel fogjuk megoldani: meg se próbáljuk feltelepíteni. Helyette megpróbáljuk elérni azt, hogy ne is legyen rá szükségünk.

Az rsyslog például elég okos és képes egyből Elasticsearch-be küldeni a logokat.

$ apt install rsyslog-elasticsearch

A JSON template definíciója az előző bejegyzésből már ismerős lehet.

/etc/rsyslog.d/10-elastic.conf
template(name="syslog-json" type="list") {
  constant(value="{")

  constant(value="\"timestamp\":\"")
  property(name="timereported" dateFormat="rfc3339" format="json")

  constant(value="\",\"host\":\"")
  property(name="hostname" format="json")

  constant(value="\",\"tag\":\"")
  property(name="programname" format="json")

  constant(value="\",\"facility\":\"")
  property(name="syslogfacility-text" format="json")

  constant(value="\",\"severity\":\"")
  property(name="syslogseverity-text" format="json")

  constant(value="\",\"message\":\"")
  property(name="msg" format="json")

  constant(value="\"}")
}

module(load="omelasticsearch")
action(type="omelasticsearch" template="syslog-json")

Szinte már túl egyszerűnek is tűnik. Ezen a ponton egy jó órát töltöttem el annak a kiderítésével, hogy miért nem érkeznek meg a logok. Elég irónikus, hogy az rsyslog nem nagyon logol, így az ő oldalán nem sok minden derült ki és az Elasticsearch se sokat segített.

A végén már odáig fajult a dolog, hogy tcpdump-pal néztem a kettő közötti forgalmat és így derült ki, hogy az rsyslog text/json content type-ot küld, a 6-os Elasticsearch-ben pedig szigor van és csak az application/json-t fogadja el.

Az Ubuntu 16.04-ben 8.16.0-s rsyslog van, ezt a problémát pedig a 8.30.0-ban javították, úgyhogy szereznünk kell egy frissebb verziót:

$ add-apt-repository ppa:adiscon/v8-stable
$ apt update
$ apt upgrade

És már jönnek is a logok. Az rögtön látszódik, hogy a Kibana már JSON formátumba logol, amit kijavíthatunk egy hasonló megoldással, mint amit az előző bejegyzésben is használtunk:

/etc/rsyslog.d/10-elastic.conf
template(name="json-msg" type="list") {
  property(name="msg")
}

if $programname == "kibana" then {
  action(type="omelasticsearch" template="json-msg" searchIndex="kibana")
  stop
}

Az nginx-et is rábírhatjuk, hogy JSON logokat adjon ki magából, de nem lesz vele olyan egyszerű dolgunk, ha ezredmásodperc pontosságú logokat szeretnénk és továbbra sem akarunk egy log feldolgozó/transzformáló réteget.

A log formátum megadásánál használható $msec (unix idő másodpercekben, ezredmásodperc pontossággal) nem támogatja dátumformátumként az Elasticsearch. Van sima unix idő másodpercben és unix idő ezredmásodpercben, de mindkettő egész számként. Szerencsére a Lua mindent képes megoldani.

/etc/nginx/sites-enabled/default
log_format json escape=json '{"timestamp": $epoch_millis, '
  '"network":{'
  '"client_ip": "$remote_addr", '
  '"bytes_write": $body_bytes_sent}, '
  '"http":{'
  '"ident": "$host", '
  '"response_time": $request_time, '
  '"status_code": $status, '
  '"request": "$request_uri", '
  '"verb": "$request_method", '
  '"referer": "$http_referer", '
  '"useragent": "$http_user_agent"}, '
  '"message": "$request"}';

server {
    # ...

    set_by_lua_block $epoch_millis { return ngx.var.msec * 1000 }
    access_log syslog:server=unix:/dev/log,nohostname json;
}

A set_by_lua_block használatához szükségünk lesz az nginx-extras csomagra. És ha még nem lenne elég a menet közben felmerülő problémákból, az Ubuntu 16.04-ben lévő nginx verzió nem tudja a log_format-nál az escape paramétert, így abból is kell egy frissebb:

$ add-apt-repository ppa:nginx/stable
$ apt update
$ apt upgrade

Tovább is van, mondjam még? Ha ezt így megpróbáljuk beküldeni, akkor a timestamp mezőnk sima long típusú lesz, nem date. Ez aztán szomorú Kibana-hoz vezet, ami végső soron szomorú felhasználókat fog eredményezni. Kell egy kis előkészület Elasticsearch-ben, hogy mindenki boldog legyen:

$ curl -d@mappings.json -HContent-Type:application/json -XPUT 'localhost:9200/nginx'
mappings.json
{
  "mappings" : {
    "events": {
      "properties": {
        "timestamp" : {
          "type": "date",
          "format" : "epoch_millis"
        }
      }
    }
  }
}

Teljesítmény

Most, hogy van egy működő rendszerünk, jogosan merülhet fel a kérdés, hogy mégis mit várhatunk el tőle. Ennek kiderítéséhez egy másik dropletet veszünk igénybe, ami ugyanabban a datacenter-ben van, mint a szerverünk és privát hálózaton SSH tunnel-lel vannak összekötve.

A kliens gépen egy végtelenül egyszerű Python script egy szálon küld be a local rsyslog-ba 100k üzenetet, amit az továbbít a szerver rsyslog-jának, aki gondoskodik a lementésről.

from syslog import *
from time import sleep

for i in range(100000):
    syslog('performance test message: ' + str(i))
    sleep(0.0002)

Első körben fájlba mentjük az üzeneteket, hogy legyen mihez viszonyítani. Ez nagyjából 37 másodperc alatt zajlott le, miközben a szerver 50% körüli CPU terheltséget produkált, ami 160k körüli logsort jelent percenként.

Ugyanez Elasticsearch-be mentéssel 80-90% körül pörgette a CPU-t, közel 9 percig, ami úgy 11k logsor percenként. Nem annyira rossz, de vajon lehetne-e jobb? Nyilván, különben nem kérdeztem volna.

Az alapbeállítás soronként küldi be a logokat az Elasticsearch-be, ami érezhetően nem a legjobb választás ilyen mennyiségek mellett. Szerencsére van lehetőség a Bulk API használatára:

/etc/rsyslog.d/10-elastic.conf
action(type="omelasticsearch" template="syslog-json" bulkmode="on")

A terhelésen nem változtat, viszont alig több, mint egy perc alatt végez, amivel sikerült elérni a 88k log/percet. A lekérdezések terén szintén jónak tűnt a helyzet. A tesztek során több, mint 650k elem került az indexbe, de a felületen csak az adatbetöltések alatt lehetett lassulást érezni.

Ezzel a kis kísérletünk a végéhez közeledik. Úgy tűnik, hogy megoldható egy működő (sőt, használható), Elasticsearch alapú központi logolási rendszer beüzemelése egy 1 GB memóriával rendelkező gépen. Néhol kerülőkkel és kompromisszumokkal tarkított az út, de kétségtelenül megoldható.

Ha mégis kezdenénk kifogyni ebből a rengeteg erőforrásból, a Kibana (és ha szükségünk van rá, akkor a Logstash) átköltöztethető egy másik gépre és az Elasticsearch-ből is felhúzhatunk több példányt, hogy igazi klaszterünk legyen.

Log gyűjtés, egy kicsit másképp

CC0 image by StockSnap

Ma a központosított logolásról lesz szó. No nem arról a szintről, amikor az alkalmazásod több tíz gigányi logot termel naponta és azt kellene valahova elpakolnod. Arra ott a méltán híres ELK stack. Nem, mi maradunk a hobbi szintnél, amikor van néhány géped, amik lehet, hogy egész életük során összesen nem látnak majd több tíz gigányi logot.

Elképzelhető, hogy nagyobb forgalom mellett is működhet egy ilyesmi felállás, de odáig nem jutott el ez a kis projekt, hogy méréseket is végezzek. Kicsit korábban sikerült már akadályokba ütközni, de erről majd később, kezdjük az elején.

A központosítás

Minden (jó linuxos) háztartásban megtalálható egy syslog. Most konkrétan az rsyslog változatával fogunk foglalkozni, de az elv valószínűleg a többivel is működhet. Először is szükségünk van egy központi szerverre, aminek küldhetjük az adatokat. Szerencsénkre az rsyslog-nak megmondhatjuk, hogy legyen olyan kedves és kívülről is fogadjon be logsorokat:

/etc/rsyslog.conf
module(load="imtcp")
input(type="imtcp" port="514")

Amit itt érdemes tudni, hogy ez egy plain text kommunikáció, így ha féltjük a logjainkat a gonosz kémektől, gondoskodnunk kell a biztonságukról. Az rsyslog tud TLS-en is kommunikálni, de felhúzhatunk egy SSH tunnel-t vagy VPN-t is a gépek között. A következő parancs segítségével kipróbálhatjuk, hogy minden jól működik-e:

$ logger -n <központi szerver> -P 514 -T "Test message"

Ezek után már csak a kliens gépeket kell beállítani, hogy továbbítsák a logjaikat a központba:

/etc/rsyslog.d/10-forward.conf
action(type="omfwd" Target="<központi szerver>" Port="514" Protocol="tcp")

És kész is vagyunk. Köszönöm a figyelmet, gyertek máskor is.

Az adatbázis

Na jó, nem ússzátok meg ennyivel. Az igaz, hogy egy központi gépen vannak a logjaink, de még mindig csak fájlokban. Mi lenne, ha mondjuk inkább MongoDB-be pakolnánk?

Nyilván nem sokkal lennénk előrébb, ha csak soronként bedobálnánk őket egy adatbázisba. Viszont ha valami egyszerűen feldolgozható formátumban érkeznének, mondjuk JSON-ként...

/etc/rsyslog.d/10-forward.conf
template(name="syslog-json" type="list") {
  constant(value="{")

  constant(value="\"timestamp\":\"")
  property(name="timereported" dateFormat="rfc3339" format="json")

  constant(value="\",\"host\":\"")
  property(name="hostname" format="json")

  constant(value="\",\"tag\":\"")
  property(name="programname" format="json")

  constant(value="\",\"facility\":\"")
  property(name="syslogfacility-text" format="json")

  constant(value="\",\"severity\":\"")
  property(name="syslogseverity-text" format="json")

  constant(value="\",\"message\":\"")
  property(name="msg" format="json")

  constant(value="\"}")
}

action(type="omfwd" template="syslog-json" Target="<központi szerver>" Port="514" Protocol="tcp")

Most már futhat valami service a központi gépen, ami figyeli a logfájlokba érkező új sorokat és betolja őket az adatbázisba. Vagy akár írhatunk egy egyszerű log fogadó szervert is, ami közvetlenül adatbázisba menti az érkező sorokat.

server.js
const net = require('net');
const readline = require('readline');
const MongoClient = require('mongodb').MongoClient;

(async () => {
  const host = '127.0.0.1';
  const port = 514;
  const connstring = 'mongodb://localhost:27017';

  const db = (await MongoClient.connect(connstring)).db('logging');

  net.createServer(socket => {
    const rl = readline.createInterface(socket, socket);
    rl.on('line', async data => {
      let jsonData = JSON.parse(data.toString().trim());
      jsonData.timestamp = new Date(jsonData.timestamp);

      await db.collection('syslog').insertOne(jsonData);
    });
  }).listen({ host, port, exclusive: true });
})();

A syslog protokol nem egy bonyolult jószág, a konkrét logsorokat küldi, így soronként egy-egy JSON-t kapunk, ami mehet is az adatbázisba. Vagy mentés előtt még végezhetünk rajta módosításokat, ha szükségesnek látjuk (például a dátumot string-ként tartalmazó mezőt Date objektummá alakíthatjuk).

Ezen a ponton megvan minden log a szervereinkről... amik syslog-ba érkeznek. Mi a helyzet a többivel? Ha az alkalmazás elég okos, akkor tud direktbe logolni a központi szerverre JSON formátumba. Vagy küldheti a logokat a lokális rsyslog-nak, ami majd továbbítja őket a központba.

/etc/rsyslog.d/10-forward.conf
template(name="json-msg" type="list") {
  property(name="msg")
}

if $syslogfacility-text == "local7" then {
  action(type="omfwd" template="json-msg" Target="<központi szerver>" Port="514" Protocol="tcp")
  stop
}

Itt a local7 facility-re érkező logoknál arra számítunk, hogy a log üzenet már egy valid JSON, így a többi részét figyelmen kívül hagyhatjuk és csak azt továbbítjuk.

Alább pedig az látható, hogy az nginx-et (1.11.8-as verziótól) hogyan tudjuk rábírni arra, hogy JSON formátumban küldje a logjait az rsyslog-nak. A local7 facility nála az alapbeállítás, úgyhogy azzal nem is kell törődnünk.

/etc/nginx/conf.d/10-logformat.conf
log_format json escape=json '{"timestamp": $msec, '
  '"network":{'
  '"client_ip": "$remote_addr", '
  '"bytes_write": $body_bytes_sent}, '
  '"http":{'
  '"ident": "$host", '
  '"response_time": $request_time, '
  '"status_code": $status, '
  '"request": "$request_uri", '
  '"verb": "$request_method", '
  '"referer": "$http_referer", '
  '"useragent": "$http_user_agent"}, '
  '"message": "$request"}';

access_log syslog:server=unix:/dev/log,nohostname json;

A megjelenítés

Itt kezdtek felmerülni a problémák. A MongoDB egyértelmű választásnak tűnt még azon a ponton, amikor JSON dokumentumokat kellett tárolni, de ha egy Kibana szerű felületet is szeretnénk hozzá, akkor már nem érződik annyira jó döntésnek.

Persze mindig ott a lehetőség, hogy megírunk magunknak egy hasonló felületet. Megfelelően kicsi scope mellett talán van is esély a befejezésre, de ez azért távol áll az ideális helyzettől. Némi keresés után a Redash-t sikerült még megtalálnom. Támogatja a MongoDB-t, tud grafikonokat generálni az adatokból és van lehetőség mentett lekérdezésekre is.

Query szerkesztő

Példa dashboard

Határozottan kényelmetlenebbnek érződik, mint a Kibana. Főleg a lekérdezések összerakása (ami egy hatalmas JSON), de a grafikonok se olyan kényelmesek/okosak. Annyi előnye azért még biztos van, hogy nem kell lefejleszteni.

Összességében egy remek hétvégi program volt kicsit közelebbről megismerkedni a syslog-gal és megpróbálni összerakni egy alternatív megoldást. Csak ajánlani tudom mindenkinek, mint tapasztalatszerzési lehetőséget. Viszont ha éles rendszerek központi logolásáról van szó, lehet, hogy jobban járunk a kitaposott ösvényekkel.

Teszteljünk konténerben

CC0 image by StockSnap

Tavaly, mikor nekiálltam a Docker-es sorozatnak, terveztem még egy negyedik részt is, ami a tesztelésről szólt volna. Aztán annak rendje és módja szerint meg is feledkeztem róla. Egészen mostanáig.

A példák PHP-t használnak a tesztelt alkalmazás nyelveként, de a koncepciók hasonlóan működhetnek bármilyen más nyelven is. A teljes kód pedig szokás szerint megtalálható a példa repóban. Vágjunk is bele.

Unit tesztek

Az ide vonatkozó Docker Compose konfiguráció annyira egyszerű, hogy igazából csak a teljesség kedvéért került bele ebbe a bejegyzésbe is. A nagy részét megtárgyaltuk már a sorozat első részének "Hello Composer" fejezetében.

docker-compose.yml
version: "3"
services:
  app:
    image: composer:1.3
    volumes:
      - .:/app
    working_dir: /app

A teszteket pedig a következő paranccsal tudjuk futtatni:

$ docker-compose run --rm -T app vendor/bin/phpunit

A könnyed felvezető után ugorjunk is inkább az izgalmasabb részekre.

Integrációs tesztek

A témakör elég tág, így két dolgot is meg fogunk vizsgálni közelebbről. Az adatbázist használó és a külső szolgáltatással kommunikáló kódok tesztjeit.

Adatbázis

Itt, hasonlóan a korábbi "Hello MySQL" részhez, szükségünk lesz egy adatbázis szervere:

docker-compose.yml
# ...
  database:
    image: mysql:5.7
    volumes:
      - ./etc/mysql/init.sql:/docker-entrypoint-initdb.d/init.sql:ro
    environment:
      MYSQL_ROOT_PASSWORD: test
      MYSQL_USER: test
      MYSQL_PASSWORD: test
# ...

Az init.sql segítségével létrehozunk két adatbázist, az egyiket a fejlesztéshez szeretnénk majd használni, a másikat a tesztek futtatásához. Ezen kívül az init.sql még beállítja a jogosultságokat és létre is hozza mindkettőben a megfelelő sémát.

Ami ezen a ponton feltűnhet, hogy az adatbázis tartalmának nem csináltunk saját volume-ot. Ennek az oka pedig az, hogy most nem csak egy konfigurációs fájlt fogunk használni. Lesz egy külön konfigurációnk a fejlesztéshez:

docker-compose.dev.yml
# ...
volumes:
  mysql:
# ...
  database:
    volumes:
      - mysql:/var/lib/mysql
# ...

Itt Docker volume-ot használunk az adatok tárolására, hogy azok a konténerek leállítása után is megmaradjanak. A Docker Compose-t pedig a következőképpen tudjuk rábírni, hogy mindkét fájlt használja:

$ docker-compose -f docker-compose.yml -f docker-compose.dev.yml up -d

Mivel az az elgondolás, hogy fejlesztés közben az alkalmazást is aktívan használjuk, ezért a teszteket futtathatjuk exec segítségével a már futó konténerben:

$ docker-compose -f docker-compose.yml -f docker-compose.dev.yml exec -T app vendor/bin/phpunit

A másik konfigurációnk a build-hez lesz:

docker-compose.build.yml
# ...
  database:
    tmpfs:
      - /var/lib/mysql
# ...

Itt tmpfs-t használunk az adatok tárolására, mivel nem is igazán akarjuk őket tárolni, ellenben szeretnénk ha gyors lenne, a tmpfs pedig memóriában tárolódik.

A build esetén az elvárásaink is kicsit mások, ami a tesztek futtatását illeti. Az alkalmazás még nem fut és szeretnénk azt is megvárni, hogy az adatbázis elinduljon, mielőtt elkezdenénk futtatni a teszteket.

$ docker-compose -f docker-compose.yml -f docker-compose.build.yml up -d database
$ docker-compose -f docker-compose.yml -f docker-compose.build.yml exec -T database bash -c 'while ! mysqladmin ping -hdatabase -u$$MYSQL_USER -p$$MYSQL_PASSWORD --silent; do sleep 1; done'
$ docker-compose -f docker-compose.yml -f docker-compose.build.yml run -T --rm app vendor/bin/phpunit
$ docker-compose -f docker-compose.yml -f docker-compose.build.yml down
  1. Elindítjuk az adatbázist
  2. A mysqladmin ping parancs segítségével megvárjuk, hogy ténylegesen el is induljon
  3. Lefuttatjuk a tesztjeinket
  4. Lekapcsolunk mindent.

Mint az a példából is gyönyörűen látszik, kezdenek egyre hosszabbak lenni ezek a parancsok, senki se gépelné be ezeket egynél többször, ha nem muszáj. Ennek kiküszöbölésére továbbra is tudom ajánlani a Makefile használatát, amire szintén lehet példát találni a kapcsolódó repóban.

API

Egy másik dolog, ami problémákat okozhat integrációs teszteknél, ha valamilyen API-val kommunikálunk. Ennek megoldására felhúzhatunk egy egyszerű service-t, ami mondjuk a PHP beépített webszerverét használja és egy olyan könyvtárszerkezetet szolgál ki, ami leutánozza a tesztekben használt API-t.

docker-compose.yml
# ...
  api:
    image: php:7.1-alpine
    command: php -S 0.0.0.0:80 -t /app/
    volumes:
      - ./etc/api/:/app/:ro
# ...

Az etc/api/ könyvtár pedig valahogy így nézhet ki:

  • v2/
    • users/
      • 1234/
        • index.php
      • index.php

Az index.php megvalósítása lehet nagyon egyszerű, már-már statikus, de ízlés szerint elbonyolíthatjuk akár input validációval, authentikációval vagy egyéb dolgokkal is.

Funkcionális tesztek

Ez is egy többféleképpen megközelíthető kategória. Előfordulhat, hogy az általunk használt keretrendszer nyújt segítséget, és csak emulálunk http kéréseket (mint például a Silex féle WebTestCase). Az is lehet egy megoldás, hogy valós http kéréseket küldünk az alkalmazásnak és az érkező válaszokat vizsgáljuk. Mindkét eset a Docker Compose konfigurációja szempontjából leginkább a unit tesztek megoldására hajaz.

No de mi van olyankor, ha egy igazi böngészőben szeretnénk automatizáltan kattintgatni? Ebben a Selenium és a Codeception lehet a segítségünkre. Szerencsénkre a Selenium volt olyan kedves, hogy szolgáltasson Docker image-eket is:

docker-compose.yml
# ...
  browser:
    image: selenium/standalone-chrome
    volumes:
      - /dev/shm:/dev/shm
# ...

Már csak a Codeception-nek kell megmondani, hogy ezt használja:

tests/acceptance.suite.yml
# ...
    - WebDriver:
      url: http://web
      host: browser
      browser: chrome
# ...

A web itt az alkalmazásunkat futtató service neve, a browser pedig a fent definiált Selenium service. Eredetileg az alkalmazást itt is app-nak hívtam, mint a többi példában, de valamilyen rejtélyes oknál fogva úgy nem működött.

Jól látszik, hogy ahogy nő az egy teszttel megfuttatott kód mennyisége, úgy lesz bonyolultabb a hozzá felhúzott teszt infrastruktúra is. A példában nem tértünk rá ki külön, de a funkcionális teszteknél jó eséllyel szükségünk lesz majd az integrációs teszteknél használt módszerekre is, hogy egy megfelelő állapotban lévő alkalmazást tudjunk a böngészőben tesztelni.

Összes bejegyzés