poniedziałek, 15 grudnia 2014

Java OQL

Nie będę się rozwodził czy i po co warto oglądać co znajduje się na stercie Java. W praktyce korzystam z 2 narzędzi


Daruje sobie instrukcję jak korzystać z MAT - tego narzędzia da się używać bez specjalnej znajomości i pozwala w wielu wypadkach pokazać szybciej problem z pamięcią. Właściwie na rzecz tego bajeru zarzuciłem korzystanie jvisualvm dostępnego w Java SE od wersji 1.6. Spotkałem się jednak z kilkoma przypadkami kiedy nie potrafiłem dokładnie zbadać zawartości kolekcji lub zbioru obiektów przy pomocy zapytania OQL z MAT (oczywiście też posiada) Na wstępie dodam że całość publikacji jest właśnie poświęcam właśnie takiemu sposobowi exploracji Heap-a.

Czego używać do przeglądania i analizy?

  • Zasadnicza zasada OQL dla MAT to nie ten sam co dla jvisualvm. 
  • MAT pod wieloma względami jest lepszy i szybszy niż jvisualvm
  • jvisualvm ma OQL, który działa wolno jednak posiada porządne wsparcie dla wyrażeń javascript i tego właśnie mi brakuje (albo nie znam jak to użyć) w MAT
Przejrzałem sporo postów na temat tego jak ludzie sobie radzą z OQL. Nie ma jakiejś rewelacji temat jest niszowy w niewielu miejscach można znaleźć pasjonatów, którzy wiedzą co się dzieje w środku. Ci właśnie używają OQL.

Dokumentacja OQL jvisualvm

Należy dokumentację traktować jak reference. W moim odczuciu pokazane przypadki użycia nie pokazuja tego że to jest JavaScript i co można tu zrobić. Przykłady koncentrują się na zapytaniu. Projekt można znaleźć w http://visualvm.java.net/ Aplikacja jednak jest bardzo podobna do standardowej dołączanej do java sun jdk1.7\bin\jvisualvm.exe http://visualvm.java.net/oqlhelp.html Podczas przeglądania znalazłem bardziej użyteczną dokumentację https://blogs.oracle.com/poonam/resource/OQL.htm

Przykłady użycia

Trywialne przypadki opisane w dokumentacji nie oddają użyteczności narzędzia. Lista wszystkich obiektów to za mało aby coś wiedzieć. Ale od tego się wszystko zaczyna trzeba mieć jakąś kolekcje którą chcemy explorować i filtrować.

Listowanie obiektów jakiejś klasy

select x from java.util.HashMap$Entry x
Zamiast tego można zrobić
select można się posłużyć heap.objects
heap.objects("java.util.HashMap$Entry")

Listowanie String do pliku

Dla mnie osobiście to najbardziej użyteczny kawałek.
Podam klika przypadków kiedy dostałem to co chciałem zobaczyć.
Przejrzeć to w MAT nie sposób, z poziomu opcji jest dostępna opcja copy i ona pozwala też exportować dane do pliku, ale nie przypadła mi do gustu. Dane nie są zapisywane w takim formacie który mnie interesuje.
Właśnie w jvisualvm znalazłem to co szukałem!
map(heap.objects("java.lang.String"),function(it) {
 return null != it ? it.toString() :"null";
});
var m = map(heap.objects("java.lang.String"),function(it) {
 return null != it ? it.toString() :"null";
});
var out = new java.io.BufferedWriter(
new java.io.FileWriter("c:/temp/result14.txt", true)
);
var i=0;
out.write("id|wartosc\n");
while(m.hasMoreElements()) {
 var e=m.nextElement();
 out.write(i+"|" + e.replace("\n"," ") + "\n");
 out.flush();
 i++;
}
out.close();

W ten sposob do pliku mogę zapisać nawet gigabajty a potem w zewnętrznym sofcie sobie to policzyć (zagregować jak chce). OQL jest specyficzny i na razie te narzędzia są średnio wydajne.

Przeglądanie MapEntry

Kolejny przykład w którym dane z kolekcji lądują do pliku.
var m = map(filter(heap.objects("java.util.HashMap$Entry"), 
 'null != it.key'),function(it) {
 return {
  k:it.key.toString(), 
  vc:(it.value == null? "null": classof(it.value).name), 
  v:(it.value != null?it.value.toString():"null")
 };
});
var out = new java.io.BufferedWriter(
 new java.io.FileWriter("c:/temp/result13.txt", true)
 );
var i=0;
 out.write("id|klucz|klasa|wartosc\n");
while(m.hasMoreElements()) {
 var e=m.nextElement();
 out.write(i+"|" + e.k + "|" + e.vc + "|" + e.v + "\n");
 out.flush();
 i++;
}
out.close();
Można wyeksportować elementy mapy do postacji id|klucz|klasa|wartosc

Obiekt po ID

Pobranie identyfikator obiektu
select objectid(o) from java.lang.Object o
Odnalezienie obiektu po id
heap.findObject(32402378344)
Dlaczego to może być użyteczne? Dlatego że gdy już mamy element z kolekcji zawsze możemy się do niego ponownie odwołać.

Dostęp do atrybutów obiektu

Nic prostszego. Wszystko to widać na bieżąco podczas oglądania obiektów.
heap.findObject(32402378344).attributes.table

Listowanie elementów mapy

Normalnie pokazują się tylko wybrane pozycje z kolekcji. Gdy chcemy coś zobaczyć trzeba dodać do zapytania coś co pozwoli aby pokazało się te co chcemy... ale wtedy zapytanie musi wszystko przemielić a to trawa strasznie długo. Ja potrzebowałem przejrzeć mapę która miała 570000 pozycji. Nie udało mi się doczekać na to z OQL-a bezpośrednio. Tym sposobem no problem (oczywiście widać na bieżąco co leci do pliku)
var t = heap.findObject(32402378344).attributes.table;
var size1 = heap.findObject(32402378344).attributes.size;

var out = new java.io.BufferedWriter(
 new java.io.FileWriter(
  "c:\temp\file_03.txt", true));
 out.write("nr|object");
for (var i=0; i<size1; i++) 
{
  var e = t[i];
  if (e==null) continue;
  var k=e.key;
  var v=e.value;
  if (k==null) {k="";} 
   else {k = k.toString();};
  if (v==null) {v="";}
   else {v = v.toString();};
  out.write(i+"|"+ k.toString().replace("\n"," ") 
    + "|" + v.toString().replace("\n"," ") +"\\n");
  out.flush();
}
out.close();

// lista contextow aplikacji
map(heap.objects("org.apache.catalina.loader.WebappClassLoader"),function(it) {
 return null != it ? it.canonicalLoaderDir.toString() :"null";
});




W Przypadku MAT
Zwracane obiekty z zapytania są określonego typu i można na ich rzecz również wywoływać metody
http://help.eclipse.org/juno/index.jsp?topic=%2Forg.eclipse.mat.ui.help%2Ftasks%2Fqueryingheapobjects.html

SELECT s.getClazz() FROM INSTANCEOF pl.kamsoft.common.monitor.KamMonitors s

SELECT s.resolveValue("timeMonitors") FROM INSTANCEOF pl.kamsoft.common.monitor.KamMonitors s

piątek, 11 kwietnia 2014

Zabbix - Openfire monitoring

Po dłuższym okresie użytkowania aplikacji Openfire, okazało się że serwer na którym jest uruchomiona miewa mocne zadyszki procesora i na maszynie wirtualnej powoduje zamieszanie. Aplikacji sam nie pisałem. Dostałem do obejrzenia tzw. "Czarną skrzynkę".

Od jakiegoś czasu próbuje zbierać takie historyjki. Nawiązując więc do wcześniejszego http://kczerw.blogspot.com/2014/01/zabbix-daje-rade.html postaram się pokazać nieco szczegółów tylko pod kątem Openfire i Zabbix.

System aktualnie był monitorowany tylko na poziomie Linux. Nieregularnie, ale zazwyczaj w godzinach porannych, można było obserwować duże obciążenie procesora. Przypadkiem po zalogowaniu do konsoli ssh udało się złapać że to jest proces openfire.

Po zalogowaniu do konsoli administracyjnej Openfire nie zastałem zbyt wiele. Wersja prehistoryczna 3.6.4. w oryginale nie miała statystyk. Jedyne co było widać do objawy na postawie systemu Linux.
Pierwsze co zrobiłem to rozszerzyłem statystyki o monitorowanie socketów.
Z tych gniazdek wyszła pierwsza relacja która pokazała, że jest wyjątkowo dużo połączeń ESTABILISHED. Zaskoczyło mnie to, że jest ich znacznie więcej niż samych userów.

Openfire Linux socket


Postanowiłem poszukać źródeł do Openfire. W przypadku tej wersji nie było łatwo... w końcu to prawie zabytek. Udało się! Nawet takie starocie mają na serwerze. 

http://download.igniterealtime.org/openfire/openfire_3_6_4.tar.gz
http://download.igniterealtime.org/openfire/openfire_src_3_6_4.zip

Zabrałem się za oglądanie źródeł dla openfire.

W pierwszej kolejności dla tej wersji skompilowałem wszystko co się dało. Teraz już miałem to co ważne - pluginy do monitorowania.
Nie pozostało nic jak przymierzyć się do uruchomienia dodatkowych elementów które pokazują statystyki tego co się dzieje w środku. Po krótkich poszukiwaniach okazało się, że dodatkowe informacje można uzyskać na podstawie pluginów. Całkiem ciekawy okazał się plugin "Monitoring Service".

Czysta instalacja Openfire (bez dodatkowych pluginów) nie pokazuje zbyt wiele co się daje w aplikacji.
Wykonane modyfikacje dotyczyły pluginów do autoryzacji i grup. W największym skrócie powodowały, że struktura firmy w postaci wydziałów (zapisana w bazie) jest odwzorowana na grupy w Openfire. Po rewizji kodu pluginu okazuje się, że również zmienia się sposób informowania o widoczności. W ramach firmy przyjęto, że każda osoba widzi nawzajem zmiany statusu w komunikatorze.

Po wykonaniu wywiadu i przejrzeniu bazy dowiedziałem się że mamy około 400 userów, ale w praktyce korzysta około 200 osób.

I na tym skończyła się moja wiedza, reszty mogłem się domyślać, ale nie potrafiłem tego potwierdzić.
Moja hipoteza już na wstępie zakłada, że przyczyna dużego obciążenia procesora jest związana z podłączaniem (logowaniem) nowych operatorów. W dużej mierze można to było potwierdzić. Po wykonaniu restartu openfire zjawisko się również mocno nasilało.

Linux CPU Usage

Linux CPU Usage no iddle

Linux network traffic

Linux CPU Load


Kontakt z autorem pluginów niewiele dał. Ogólnie aplikacja jest w porządku działa - trzeba dać mocniejszą maszynę. Taka argumentacja mnie specjalnie nie przekonała, a co jak dodamy 100 userów?

Postanowiłem podłączyć do aplikacji monitor Java. Generalnie do aplikacji Java gdzie mogę to pcham zapcat-a. Jest znacznie prostszy we współpracy z zabbix niż natywny connector JMX w zabbix.
Openfire korzysta z Tanuki wrapper. Nie mam prostego sposobu na wpięcie się do tego wrapera aby wystartować proces zapcat-a. Tu można to prościej załatwić. Zapcat ma plugin który można wgrać do openfire.

Obserwowałem obrazki z monitora Linuxa i ze smutkiem spowodowany bezsilnością. Prawie pewne że kolejny dzień rano znów przypali się procesor w wirtualce.

Co do monitorowania Java nie można mieć zastrzeżeń. Ilość zjadanej pamięci jest spora ale nie dramatyczna. Nie widać też jakiś jawnych wycieków.





Spróbowałem podglądać wątki przy pomocy jconsole oraz jvisualvm. Niestety rezultaty nie były zbyt odkrywcze. Nawet załączenie monitorowania wywoływanych metod nie rzuciło światła na to co jest przyczyną obciążenia. Próbowałem wykorzystać sampler aby sprawdzić która z metod jest najbardziej kosztowana.

jvisualm openfire sampler snapshot

jvisualm openfire sampler
Ciągle rosła wartość czasu przetwarzania NamePreservingRunnable.run(). Po sprawdzeniu kodu tej klasy okazuje się, że to tylko wraper do uruchomienia wątku (na podstawie tego czegoś nie wiadomo co ten wątek robi).

Znaczna aktywność bazy danych w tym momencie skłoniła mnie do sprawdzenia ilości wywołań metod związanych z operacjami na bazie danych autoryzacji. Zrobiłem to w prosty sposób grepując loga.
Moje podejrzenia się potwierdziły. Ilość operacji była ogromna. Najbardziej dawał popalić plugin dostarczający informację o userach. Rekordowa była metoda

public class XXXUserProvider implements  UserProvider... {
 public Collection<String> getUsernames() {
 ...

Bardzo mnie to zastanawiało dlaczego operacje na bazie obciążają procesor. Normalnie to nie do pomyślenia, przecież wtedy procesor czeka na dostarczenie danych, to baza co najwyżej mogła być obciążona (ale to zupełnie inny system w tym wypadku iSeries), jednak baza dawała radę. Zatem to niekoniecznie jest przyczyną całego problemu.

Trochę światła się pojawiło po zainstalowaniu pluginu "Monitoring Service"
Pokazuje on 3 ważne parametry:

  • liczba userów, 
  • aktywne konwersacje, 
  • liczba pakietów na minutę


Liczba pakietów które się pojawiają po restarcie Openfire sporo daje do myślenia. Z dużym prawdopodobieństwem można powiedzieć, że są to pakiety z informacją o widoczności. 
Przy założeniu że 1 klient jest źródłem powiadomienia do wszystkich innych mamy 1 -> 200 a klientów jest 200 - wiec mamy 200 * 200 co daje 40 000 pakietów. A ponieważ nie jest to tylko ten pakiet wiec rachunek w miarę się zgadza. Model który został przyjęty przy definiowaniu widoczności jest na pewno kosztowny przy masowej zmianie widoczności operatorów. 

Oglądając wykresy statystyk openfire na bierząco nie miałem jakiś specjalnych zastrzeżeń. Gdy chciałem sprawdzić stan który był wczoraj, albo kilka dni wcześnie było kiepsko. Dane zostały uśrednione. 
Plugin "Monitoring Service" w tej wersji trochę mnie zawiódł. Niestety nie podłącza danych które zbiera do JMX. Pozostaje na początek zatem tylko konsola admina do oglądania tego co się dzieje.

Obejrzałem również wartości dla cache Openfire. Tu po chwili obserwacji okazało się że wartość cache dla "Roster" zdecydowanie była zbyt mała. Zwiększyłem ją. I tu pojawił się skok. Liczba wywołań metody  getUsernames() dla UserProvider-a kolosalnie spadła. To mnie przekonało o znaczeniu cache. Niemniej jednak nie spowodowało to zmniejszenia zużycia procesora w jakiś znaczący sposób. Podobnie miała się sprawa w przypadku cache "VCard"

Ponieważ chciałem mieć te elementy w jednym słusznym miejscu zabrałem się do przeróbki pluginu zabbix dla Openfire. Postanowiłem dodać do JMX elementy które są widoczne w konsoli administracyjnej Openfire po dodaniu pluginu "Monitoring".

Przyjąłem sobie założenie aby nie zepsuć aktualnego pluginu. Czyli jeżeli nie ma zainstalowanego pluginu "Monitoring" to po prostu nie mam drzewka ze statystyka w JMX.

Do w/w elementów można się dostać w wykorzystując wymienione poniżej klasy:

XMPPServer xmppServer = XMPPServer.getInstance();
org.jivesoftware.openfire.plugin.MonitoringPlugin
org.jivesoftware.openfire.archive.ConversationManager
org.jivesoftware.openfire.reporting.stats.StatsViewer
org.jivesoftware.openfire.reporting.graph.GraphEngine
org.jivesoftware.openfire.reporting.stats.StatsAction

Postaram się udostępnić zmodyfikowane źródła pluginu zapcat-openfire oraz template dla Zabbix.

Rezultat jest wystarczający. W drzewku JMX pojawiają się pozycje openfire/session/cache oraz openfire/session/stats
openfire-zabbix plugin JMX tree (cache)

openfire-zabbix plugin JMX tree (stats)

Teraz już wystarczy przygotować template dla Zabbix.

openfire-zapcat zabbix cache roster

openfire-zapcat zabbix cache routing-user-session

openfire-zapcat zabbix cache vcard

openfire-zapcat zabbix conversation

openfire-zapcat zabbix pocket-count

openfire-zapcat zabbix server-bytes

openfire-zapcat zabbix session
Teraz może pora pochwalić się czy udało się zmienić tą maszynę z piekarnika z powrotem w normalnie pracujący system. Okazało się że przyczyną jest trywialny problem. Na dysku znajdował się katalog, który zawierał 500 000 plików. Dostęp do tego katalogu (inicjowany przez zupełnie inną aplikację) pochłaniał takie zasoby procesora. Ale skutek uboczny również przymulał openfire.
W takim modelu powiadamiania jaki mamy wybrany nie da się pewnie zrealizować tego bez obciążenia procesora. Można wykonać dokładniejszą eksploracje mechanizmu komunikacji Openfire.

W tym jednak przypadku ja postawiłem sobie za cel tylko zrobienie statystyk w Zabbix dla Openfire.

środa, 5 marca 2014

Zabbix - Interface WEB

Modyfikacje kodu interface WEB

Już od dawna przymierzałem się do drobnych modyfikacji interface webowego Zabbix. Za każdym razem odstraszało mnie przygotowanie środowiska do pracy z PHP. 

Z tego co widzę projekt się nadal rozwija, jednak przy każdych zmianach mam wątpliwości czy aby na pewno słuszny kierunek to obiera.

Na początek powiem, że ogólna koncepcja nie jest zła i dość daleko zaszła. Brakuje zdecydowanie estetycznego dopracowania i stabilności (szczególnie w interface od strony użytkownika). Nie będę sobie zawracał teraz głowy gdzie i kiedy się sypie. W wielu miejscach brakuje prostych filtrów. Przy dużej ilości elementów typu Template, Screen bieda się odnaleźć - właśnie tam nie ma filtrów. Mam wątpliwości co do użyteczności takiego czegoś jak makro.

Takie właśnie drobne rzeczy chciałem sprawdzić czy da się poprawić.

Da się!

Ale o zgrozo zajrzałem w jaki sposób jest budowana formatka i po prostu wolna ameryka!

Wziąłem sobie na pulpit screenconf.php i wzorując się na hosts.php próbowałem go wzbogacić o filtr.

Postaram się opisać jak to zrobiłem i opisać ogólną koncepcję, która jakoś tam się rysuje.

Gdzie sesja

Nie jest to dziwne... w java - Servlet itp takie coś jest jako obiekt. Tu na próżno szukać. Z tego co widzę to do przechowywania takich rzeczy jest CProfile
// aktualizacja wartości w profilu
CProfile::update('web.template.filter_template', $_REQUEST['filter_template'], PROFILE_TYPE_STR);

// pobranie wartości z profilu
CProfile::get('web.template.filter_template')

Filtrowanie parametrów wejściowych

Podejście które autorzy zastosowali polega na przepuszczeniu przez $_REQUEST tylko zadeklarowanych parametrów. Już na wstępie jest robiona walidacja dopuszczalnych wartości w oparciu o tablicę $fields.
Bardzo niewygodne podejście bo już na samym wstępie trzeba wiedzieć jakie będą dopuszczalne parametry i ich typy. Wymaga to wielokrotnej i rozproszonej deklaracji. W pierwszej kolejności na $fields, potem w przepisywaniu parametrów do określonych kolekcji takich jak CProfile reprezentujących profil, czy pola.
Trzeba to mieć na uwadze. Ja się przejechałem nie mogłem dotrzeć dlaczego pomimo tego, że parametry się przesyłają nie widać ich w $_REQUEST. Załatwiała mnie check_fields($fields). Właśnie ta funkcja waliduje co może być w $_REQUEST.

Template

Są ... ale nie jakieś tam cudo. Po prostu jest to taki sam plik php jak główny powiedzmy kontroler. Może różnica jest umowna że w tym template powinniśmy korzystać z $data do dekorowania zawartości.

// render view
$screenView = new CView('configuration.screen.list', $data);
$screenView->render();
$screenView->show();

Jak widać żadnych sensacji. Pliki są czytane z include/views w tym wypadku będzie to

include/views/configuration.screen.list.php

Renderowanie filtrów i elementów

Takie podejście jak tu już się spotkałem w wielu projektach. Klasy odpowiedzialne za generowanie konkretnych elementów HTML. Jednym z trochę już archaicznych rozwiązań z Java to ECS http://jakarta.apache.org/ecs/

Filtrowanie danych

Dane do list są dostarczane przez API. Można powiedzieć że na tym poziomie w ogóle odcinamy się od bazy. Nie posługujemy się ani jak w Java obiektami Query, Connection. Warstwa abstrakcji na tym poziomie wydaje się wystarczająca. 
// pobranie listy temlate
API::Template()->get($options);
Warunki są przekazywane w $options mogą być dość złożone.
Na pierwszy rzut może wydawać się to skomplikowane, ale na szczęście API jest dość dobrze opisane. Można znaleźć na https://www.zabbix.com/documentation/2.0/manual/appendix/api/api
Jeżeli mam się odnieść do pobierania listy template będzie to https://www.zabbix.com/documentation/2.0/manual/appendix/api/template/get, Niestety trzeba się tu zapoznać z pozycjami, które możemy używać w options bo są one różne dla różnych rodzajów danych. Ogólna zasada jest taka: filtrowanie z like wykorzystuje search
// przygotowanie options do wywołania API
$options = array(
 'editable' => 1,
 'sortfield' => $sortfield,
 'sortorder' => $sortorder,
 'limit' => ($config['search_limit']+1),
 'search' => array()
);
// inicjowanie pozycji po których szukamy z like
// tu gdy jest ustawione filter_template to dodane jest szukanie po host
$local_template_name = $_REQUEST['filter_template'];
if (!zbx_empty($local_template_name)) {
 $options['search']['host'] = $local_template_name;
}
W moim odczuciu z opisu API nie do końca wynika co podać jako warunki szukania. Wydaje się jednak dość sensowna metoda polegająca na sprawdzeniu jakie zostanie przygotowane zapytanie.
Można to zrobić wykonując breakpoint-a w klasie wykonującej zapytanie. Ponieważ aktualnie korzystam z mysql-a zrobiłem to w include/db.inc.php w funkcjach DBexecute oraz DBselect niezawodnie można tam sprawdzić query które idzie. 

Standardy

W całym projekcje słabo widać nową technologię - ale nie to jest przecież najważniejsze. Czasem działa dlatego, że nie zostało przeenżynierowane. Ale jednak raczej są to stare techniki MVC i to własnej konstrukcji. Nie mówię że traktuje to jako wadę. Ale patrząc na ilość pracy przy napisaniu większej ilości formatek już może być problem aby to ogarnąć. Jest ogólna separacja, kontroler-a, dostarczenia danych, renderowania rezultatów ale bardzo umowna i raczej słabo przestrzegana.

Wyświetlanie na screen wartości typu plain text

W moim odczuciu w przypadku tego typu informacji powinna być wykonana konwersja podobnie jak w przypadku "Last value" z Latest data (latest.php). Ogólnie wydaje mi się że jest to niespójność dlatego że na wykresie item który ma zdefiniowane unit jest prezentowany z uwzględnieniem konwersji do podanych jednostek (wybierany jest adekwatny dekorator - jeżeli da się to zrobić) W tym miejscu po wybraniu jednostek jako sekundy (wszędzie jest wyświetlane jako czas) ale na screen ze zdefiniowanym "plain text" wyświetla się bez dekoratora (jawny timestamp).

// latest.php
$change=convert_units($db_item['lastvalue']-$db_item['prevvalue'],$db_item['units']);
// include\func.inc.php
// gdy s 
convertUnitsS
 
// include\views\monitoring.screen.php

// include\screens.inc.php
$resourcetype = $screenItem['resourcetype'];
$resourcetype == SCREEN_RESOURCE_PLAIN_TEXT
get_screen_plaintext
$element = get_screen($screen, 0, $effectiveperiod);


get_screen_plaintext
get_item_by_itemid
... oczywiście będzie ciąg dalszy
Zamierzam dodać w tym przykładzie filtry do miejsc które wspomniałem wcześniej.



środa, 26 lutego 2014

Ant - Selektory plików dla fileset

Na wstępie powiem tak - to nie jest tutorial. Znacznie lepsze określenie do tego co jest niżej to rodzaj pamiętnika. Wiele rzeczy można zrobić na wiele sposobów. Niektóre są dobrze opracowane i łatwo je znaleźć. Niektóre nie wydają się zbyt popularne i drążenie zaczyna się od suchej dokumentacji. To co próbuje zrobić niżej można zrobić na wiele innych sposobów (pewnie to prawda). Ja akurat się uwziąłem aby zrobić to przy pomocy ANT-a. Chodzi o wybieranie elementów do fileset-a. fileset jest przekazywany jako argument do innych task-ów i dlatego jest popularny.

W przypadku prostych definicji nie trzeba sobie zawracać głowy, wystarczy tylko wskazać katalog i się robi. To jest dobre. Co zrobić gdy trzeba w jakiś złożony sposób spreparować listę do skopiowania?
Zamiast zmagać się z jakimś kosmicznym wyrażeniem regularnym pisanym w xml-u można spróbować dodać do fileset selektor który będzie wybierał pliki przy pomocy kodu. Wydaje się że to będzie prostsze. Czy to prawda? Z tego co piszą można to zrobić korzystając z języków skryptowych. Można też napisać klasę która to realizuje wykorzystując Custom Selectors.

Może najpierw spróbuje sprawdzić selektory skryptowe. Wybrałem jako język JavaScript.
Przykład selektora który wybiera każdy plik
<scriptselector language="javascript">
    self.setSelected(true);
</scriptselector>
Przykład selektora który ma nazwę o długości parzystej
<scriptselector language="javascript">
    self.setSelected((filename.length%2)==0);
</scriptselector>
Jak to wykorzystać w taskach które akceptują fileset? Poniżej przykład kopiowania z takim selektorem
<copy todir="dir-to">
    <fileset dir="..">
        <scriptselector language="javascript">
            self.setSelected((filename.length%2)==0);
        </scriptselector>
    </fileset>
</copy>
Po wykonaniu widać że kopiowana jest cała hierarchia. Wcale nie jest to takie proste. Na pierwszy rzut oka nie wiadomo dlaczego i skąd bierze się self i co to w ogóle jest. No na szczęście w tym temacie wyjaśnia się sprawa po lekturze manual-a Script Selector (patrz Selektory w ANT i radzę dokładnie przeczytać pisze co i jak).

Mam już jakieś narzędzie. Postawiłem więc sobie takie zadanie. Chcę wybrać tylko katalogi (nie pliki), które są w katalogu poniżej i zaczynają się od liczby.
Moja struktura może to wyglądać tak:
[all]
    build.xml
    test.xml
[00]
    [properties]
    ...
    build.xml
[00_auth]
    [properties]
    ...
    build.xml
[02]
    [properties]
    ...
    build.xml
...
[17]
    [properties]
    ...
    build.xml
[17_auth]
    [properties]
    ...
    build.xml
Jest to typowe zadanie gdy buduje wersję dla różnych oddziałów. W każdym katalogu który wybiorę jest skrypt, który buduje aplikację. Nie jest ważne jak to się buduje. Ważne jest to że chce mieć jakiś customizowalny sposób na wybieranie tych katalogów. Jakby się zastanowić to wcale może nie trzeba korzystać z selektora skryptowego! Może skorzystać z Filename Selector oraz Depth Selector. Mój testowy skrypt Ant-a to test.xml. Przyjąłem założenie, że w każdym katalogu jest plik o nazwie build.xml. Jako częściowa próba zrealizowania tego może to wyglądać tak:
<copy todir="dir-to" verbose="true">
    <fileset dir="..">
        <and>
            <depth max="1" />
            <filename regex="^\d+" />
            <filename regex="build.xml" />
        </and>
    </fileset>
</copy>
Wydaje się to działać. Ale czy to koniec? Normalne copy kopiuje wszystko to kopiuje tylko build.xml. Działa ale tylko dlatego że jest jeden build.xml. Co by było gdyby  build.xml był w kolejnym podkatalogu [00]/xx/build.xml? Skopiuje się! Nie okazuje się że właśnie depth przed tym zabezpieczył!

Selectory filename

W selektorze przekazywana jest nazwa pliku. W dokumentacji bezpośrednio nie ma informacji że to jest pełna ścieżka od miejsca podanego jako atrybut dir dla fileset. To dość ważne. Pisząc warunek który wybiera po nazwie chcemy np zdefiniować tak aby brało 17/ ale już nie 17_auth/. W zależności od tego czy ant jest odpalony na Windows czy Linux warunek jest interpretowany inaczej i wartość filename przekazana do badania warunkiem może mieć ścieżkę z separatorem / lub \.
Stosując wyrażenie regularne można to opędzić definiując np. wyważenie
<filename regex="^17[\\/]" />
Taki patent działa na obu systemach.

Eclipse

Uruchomienie takiego skryptu w Eclipse wymaga ustawienia ANT_HOME w Eclipse na właściwą wersję ANT. Wymagana też jest wskazanie odpowiedniej wersji JAVA. W moim przypadku korzystałem ze starej wersji Eclipse dlatego wskazałem moją własną - zewnętrzną wersję ANT (Window / Preferences / Ant / Runtime / Ant Home). Uruchomnienie przy pomocy Eclipse wymagało wskazania JAVA 1.6 (prawoklik - menu - Debug As / Ant Build / JRE / minumum 1.6)
W przypadku JAVA 1.5 dostałem komunikat że nie można załadować BSF
Nie udało mi się na razie debugować wyrażenia w JavaScript. Debuguje się jedynie skrypt ANT-a.
W sumie mało użyteczne odpalenie tego z Eclipse!

Selektory w ANT http://ant.apache.org/manual/Types/selectors.html
Opis języka skryptowego http://ant.apache.org/manual/Tasks/script.html

poniedziałek, 24 lutego 2014

Windows - batch

Manager urządzeń

Można odpalić z cmd przez komenę devmgmt.msc

Pobranie do zmiennej bieżącego katalogu

Przypadkowo zdarzyło mi się że musiałem napisać prosty plik bat. Nie przepadam za skryptami w batch-ach... ale gdy trzeba trudno.
Chciałem sprawdzić bieżący katalog.
Postąpiłem w sposób analogiczny jak dla Linux.
Pewnie jest to jakaś zmienna systemowa.
Okazało się że to nie tak samo...

W przypadku Linux można to sprawdzić przeglądając zawartość zmiennych komendą set
Wartość mamy w PWD
set |less
set |grep PWD=
Chciałem to sprawdzić dla Windows. I co? Okazuje się że szukam a tu nie ma!
set |more
set >c:\test
Można sobie taką zmienną spreparować. Komenda cd zwraca tę wartość.
set PWD="%cd%"
echo %PWD%

... i gotowe

Źródło http://stackoverflow.com/questions/6789491/batch-script-to-set-a-variable-with-the-current-path-location

Szukanie pliku który się uruchomił

I znów pracuję w Windows.
Odpalam konsole cmd. Wydaje polecenie np: java i wykonuje. 
Działa... ale czemu?
Może na początku zaznaczę że polecenia wydaje bez podania pełnej ścieżki. Wygląda tak jak komenda systemu. Niektóre polecenia się wywołują - ot tak - bez podania pełnej ścieżki.
Gdyby się zastanowić, to tak do końca nie wiem co się uruchomiło.
Sprawdzając managera zadań, pewnie zobaczę pełną ścieżkę, ale już po uruchomieniu.
A jak zobaczyć co system wybierze zanim to wykonam?

Wracając do teori w systemie Windows programy są odnajdywane na podstawie ścieżki PATH. Skąd tak na prawdę ten program jest uruchamiany? Jak znasz scieżkę PATH możesz spróbować to prześledzić, ale czy to proste i komu by się to chciało robić.

Okazuje się że można zobaczyć co właściwie system znajduje gdy się poda polecenie - służy do tego where.
where java
 C:\Windows\System32\java.exe
 D:\java\jdk\jdk1.6\bin\java.exe
Teraz już wiem.... wykona C:\Windows\System32\java.exe bo jest pierwsze na liście

W przypadku Linux jest whereis. Wydaje się że where z Windows to właśnie jego odpowiednik.

Rozszerzone polecenia cmd

Chciałem wykonać prosty skrypt do odpalania programu java. Jestem w katalogu X, wywołuje skrypt program.bat z podaniem bezwzględnej ścieżki katalogu Y. W ścieżce Y znajdują się wymagane jary. Trzeba je dodać do wywołania jar-a. Okazuje się że zrobiłem sobie zagadkę.
c:\X> c:\Y\program.bat
Kod program.bat jest prosty:
java -cp .\lib1.jar Class1
Program przy takim wywołaniu się wykłada. Wina to podanie bezwzględnej ścieżki. Ścieżka reprezentowana przez . to c:\X a tu nie ma lib1.jar.

Jak zatem to zrobić aby działało również dla takiego przypadku?
Nie chce przecież w skrypcie mieć zapisanych ścieżek na sztywno!
Czytam więc reference dla cmd. Zabrałem się do tego po lekturze linka poniżej. Należy zwrócić uwagę że I to numer od 0 - n
%~fI        - expands %I to a fully qualified path name
%~dI        - expands %I to a drive letter only
%~pI        - expands %I to a path only
Co ciekawe podobny rezultat dostałem gdy sprawdziłem zawartość %0 podobnie jak dla %~f0 

Idąc tym tropem spróbowałem ustawić zmienną. Wydaje się działać:
set BATH_PATH=%~d0%~p0
Po tych zmianach kod program.bat wygląda tak
set BATH_PATH=%~d0%~p0
java -cp %BATH_PATH%\lib1.jar Class1
Teraz działa tak jak chciałem!

piątek, 31 stycznia 2014

Tomcat - RequestFilterValve

Zabezpieczenie po IP

Czasem trzeba się zabezpieczyć przed dostępem do niektórych zasobów Tomcat-a. Wprawdzie ta metoda nie jest zbyt skuteczna, ale na początek można ją spróbować.

Przykładowa definicja:
<Context>
  ...
  <Valve className="org.apache.catalina.valves.RemoteHostValve"
         allow=".*\.mycompany\.com|www\.yourcompany\.com"/>
  <Valve className="org.apache.catalina.valves.RemoteAddrValve"
         deny="192\.168\.1\.\d+"/>
  ...
</Context>
Można powiedzieć że jest w tym przykładzie zdefiniowany łańcuch 2 obiektów Value.
Jak tylko dojdzie do RemoteHostValve to na pewno go wykona jak, nie wywali w tym czasie błędu 403 to wykona również RemoteAddrValve. Wiec to oznacza że do RemoteAddrValve może nie wejść.

Podczas badania jak działa RequestFilterValve wyszły mi następujące wnioski:

Dane do sprawdzania
  • request.getRemoteAddr() - adres IP z requesta
  • request.getRemoteHost() - nazwa hosta


Kolejność sprawdzania
  • denies jak przejdzie idzie dalej
  • allows jak przejdzie idzie dalej
  • jak doszło do tego miejsca i jest ustawione denies i nie ustawione allows to idzie dalej
  • wywala 403

Scenariusz testów

Dodaje definicję w/w value do tomcat/conf/server.xml w sekcji Host tak jak access log
Moja maszyna ma IP 192.168.1.10
Mój Tomcat ma connector https na porcie 443.
Odpalam Tomcat-a 
Z przeglądarki pytam https://192.168.1.10/manager/html/ - powinno mnie wpuścić
Z przeglądarki pytam https://127.0.0.1/manager/html/ - powinno dać komunikat 403
Definicję value przenoszę do tomcat/conf/context.xml - spawdzam działanie
Definicję value przenoszę do tomcat/conf/Catalina/localhost/ap-xxxx.xml - spawdzam działanie

Wnioski:

  • przy ustawionych denies i allows - definicja denies powinna być bardziej szczegółowa niż allows, dlatego że inaczej nie wejdzie do sprawdzenia allow
  • prawdopodobnie lepiej jest zdefiniować kilka value z pojedynczymi definicjami denies albo allows
  • można dla definicji denies i allows podać dowolne wyrażenie regularne przyklady z ip oczywiście są sensowne, ale może to być cokolwiek. Warto zwrócić uwagę na znaki \ 
  • dla definicji denies i allows można podać kilka wartości oddzielonych znakiem "," Zostaną one zamienione na tablicę Pattern[]

Źródła:

http://tomcat.apache.org/tomcat-6.0-doc/config/context.html#Request_Filters
http://fossies.org/dox/apache-tomcat-6.0.37-src/RequestFilterValve_8java_source.html

Tomcat - zdalne debugowanie

Łatwo znaleźć - ale lepiej mieć pod ręką

Niektóre rzeczy łatwo znaleźć u wujka google, trzeba jednak wiedzieć jak go zapytać.

Wiadomo można odpalić Tomcat-a w środowisku IDE Eclipse i podłączyć źródła.
Ja to robię jeszcze prehistoryczną metodą przy pomocy pluginu http://www.eclipsetotale.com/tomcatPlugin.html ale jak, ktoś wie co i jak to znajdzie lepsze patenty.

Czasem jednak skórka nie warta wyprawki i lepiej się podłączyć do tego co już jest.

Akurat pracuję pod Windows więc cytuje zaklęcia:

  set JPDA_ADDRESS=8000
  set JPDA_TRANSPORT=dt_socket
  bin/catalina.bat jpda start

W IDE Eclipse wystarczy zdefiniować Run / Debug Configuration / Remote Java Application, ustawić port 8000, podłączyć źródła np Tomcat-a i można sobie oglądać na żywo.


czwartek, 30 stycznia 2014

SSH - putty autoryzacja kluczem

Uciążliwe hasło

Jednych z częściej wykonywanych operacji przez administratora jest autoryzacja. Oczywiście można być połączony cały czas, ale w środowisku korporacyjnym gdzie funkcjonuje limitowanie tego typu "przywilejów" będziesz musiał ciągle zmieniać i podawać hasła. 
Znajdą się oczywiście "specjaliści", którzy na siłę będą Ci wciskać domenową autoryzację Window lub LDAP i może jeszcze inne cukiereczki.

Ja osobiście korzystam z czegoś prostszego.

Klient windows putty, pagent, puttygen

Jako że korzystam z Windows (nie z przyjemności), trzeba mieć pod ręką jakiego klienta ssh. Nie wiem nawet czy jest jakaś alternatywa do putty, w każdym razie używam.
W ramach paczek, które oferuje można sobie wygenerować klucze RSA i na podstawie tego się autoryzować.

putty

W przypadku klienta putty dla Windows robię to tak:
  • wygenerować klucz puttygen
  • zapisać klucze do plików (najlepiej z hasłem)
  • skopiować zawartość klucza publicznego (wyciąć entery
  • na maszynie na której chcemy się logować kluczem utworzyć plik $HOME/.ssh/authorized_keys skopiować do niego zawartość (dodać na końcu) w formacie
  • ssh-rsa 12312312313212312sdfsdfsdfd.............s23423432424234== user@ip
Uwaga!!! na entery puttygen generuje klucz z enterami (powycinać)
ustawić w putty do autoryzacji klucz prywatny

pageant

Wykorzystać pageant do ładowania kluczy do autoryzacji.
Dodać do autostat-u odpalenie pageant z ładowaniem kluczy
"C:\Program Files\ssh\pageant.exe" "c:\Users\user\Documents\ssh\local\keys.prv.ppk"
Klucze lepiej przechowywać w katalogu domowym
Jeżeli klucz zostanie wygenerowany bez hasła (teoretycznie niezalecane) w praktyce w wewnętrznej sieci bardzo wygodne), będziemy mieli dostęp tylko po wpisaniu ip do clienta ssh

Od tego momentu wszystkie operacji ssh (putty, winscp) gdy uda się automatyzować w/w kluczem będą wykonywane automatycznie w oparciu o klucze

Klient linux

ssh-keygen -t rsa -C "xxx@host"
Wygenerowane zostaną pliki w katalogu domowym ~/.ssh/ (id_rsa, id_rsa.pub)
Zawartość id_rsa.pub trzeba skopiować do authorized_keys na maszynie docelowej. Katalog ~/.ssh/, jeżeli nie ma trzeba utworzyć, należy zwrócić uwagę na uprawnia.

Konfiguracja dla konta linux

Dla konta linux na którym chcę się logować przy pomocy klucza stosuję następującą procedurę:

  cd ~
  mkdir .ssh
  chmod 700 .ssh/

Kopiowanie kluczy z innej maszyny (to uproszczona wersja). Można dodać poszczególne klucze ręcznie.
  scp user@ip:/home/kczerw/.ssh/authorized_keys .ssh/ 

  chmod 400 .ssh/authorized_keys

Uprawnienia do plików są bardzo ważne!!!


środa, 29 stycznia 2014

Zabbix - screen javascript search

Dużo screenów

Jednym z lepszych sposobów na organizowanie wykresów jest grupowanie ich w screen-y, które pozwalają na jednym ekranie pokazać kilka wykresów. W zabbix 2.0 mamy 2 typy screenów: ogólne oraz host screeny. Mnie na razie interesują te pierwsze w których można łączyć wykresy z różnych hostów. 
W dużym systemie może ich się pojawić dużo. Autorzy do wybierania screena wykorzystali pole combo (select), które przy dużej ilości wpisów jest wyjątkowo niewygodne.

Planowane ułatwienia

Zastanawiałem się nad zrobieniem pola autocomplete, które by zastąpiło pole combo. Ze względu na fakt że API w zabbix nie jest zbyt fajne i dodatkowo w PHP (jakoś przyzwyczaiłem się do Java) postanowiłem szukać innego rozwiązania.
Może to co przyszło mi do głowy, nie jest najszczęśliwsze, ale proste do zrobienia. Dodałem do pola combo filtr w postaci pola tekstowego, który zawęża wartości w polu combo do tych które zawierają wprowadzony tekst. Aktualizacja zawartości pola combo jest na onblur pola tekstowego.


Wartości pola tekstowego nie są zapamiętywane na stałe w serwerze... ale można się o to pokusić.
Myślę że nie warto, zamiast tego lepiej będzie popracować nad polem autocomplete.
Tymczasem proponowane rozwiązanie.

Zmiany

Modyfikacji poddałem include/views/js/general.script.confirm.js.php 
Obsługa dotyczy pola select#elementid, zrobiłem to korzystając z jQuery


<script type="text/javascript">

...
        function selectScreenRebuild(){
         var i=jQuery('input#screen_filter_value');
         var fv=i.val();
         fv=fv.trim();
         var selScreen=jQuery('select#elementid');
         //console.log('key', fv);
         var re=new RegExp(fv,"i");
         //clearall
         jQuery('select#elementid option').remove();
         jQuery('<option value="">-- wybierz --</option>').appendTo(selScreen);
         jQuery(selectScreenCopy).each(function(i,o){
          var ov=o.v;
          var ot=o.t;
          var o_visible=re.test(ot);
          if(o_visible) {
           //console.log("keydown", fv, ot);
           jQuery('<option value="'+ov+'">'+ot+'</option>').appendTo(selScreen);
          }
         });
        }

        var selectScreenCopy=[];
        jQuery(function(){
          jQuery('select#elementid option').each(function(i,o){
                //console.log(i,o);
                var f=jQuery(o);
                var v=f.val();
                var t=f.text();
                selectScreenCopy[i]={v:v,t:t};
          });

          var filter_value=jQuery('input#screen_filter_value');

          filter_value.keyup(function(e){
                selectScreenRebuild();
          });
          filter_value.change(function(e){
                selectScreenRebuild();
                //setTimeout(function(){ jQuery('select#elementid').closest('form').submit() },500)
          });
        });

Wyszukiwarka wydaje się prymitywna jednak przyspiesza niesamowicie szukanie po combo.


Zabbix - optymalizacja pod kątem wydajności

Wydajność IO daje się we znaki

Na razie wszystkie instalacje które wykorzystuje pracują na bazie MySQL.
Możliwe że w przypadku zastosowania innej bazy takie problemy nie występują.

W większych instalacjach zdarzyły mi się problemy dotyczące housekeeper-a który zaczął wykonywać za dużo operacji IO na dysku. Do pewnego momentu próbowałem modyfikować parametry mysql-a jednak nie dawało to sensownych rezultatów.

Podjąłem dlatego próbę zmniejszania częstości pytania itemów.
Do pewnego momentu robiłem to z poziomu interface, jednak poddałem się i zacząłem modyfikować dane z poziomu sql-a.

Przyjąłem założenie aby nie definiować itemów które maja duże history. Domyślnie zabbix zakłada itemy które maja history = 90 dni. Sprawdzona optymalna wartość to 7 dni.

Może to nie jest jedyny sposób optymalizacji, możliwe że trzeba zabrać się za partycjonowanie tabel jak w jednym z linków. Poniższy przykład może być jednak pomocny do diagnostyki skali problemu.

Przydatne SQL

Poniżej zebrałem parę zapytań, które się bardzo przydają:

Sprawdzenie items pod kątem częstości odświeżania
  select delay,type from items group by delay,type;

Wielkość tabeli z historia
  show table status like 'history';

Badanie wilkości tabelek o nazwie jak maska '%history%'
  SELECT table_rows, table_name AS "Table",  
  round(((data_length + index_length) / 1024 / 1024), 2) "Size in MB"  
  FROM information_schema.TABLES  WHERE table_schema = "zabbix" and

  table_name like '%history%';

Sprawdzenie które itemy maja największą ilość wpisów historii
  select itemid, count(itemid) from history group by itemid order by count(itemid);

Usuwanie starej historii itemów od daty (dane podać w formacie timestamp unix)
  delete from history where itemid in(xxx,xxx,xxx) and clock<1380585600;

Usuwanie historri po kawałku
  delete FROM history  where clock < UNIX_TIMESTAMP(date_sub(current_timestamp, 
  interval 7 day)) limit 1000000;

  delete from history_uint where clock<UNIX_TIMESTAMP(date_sub(current_timestamp, 
  interval 4 day)) limit 1000000;

Sprawdzenie które itemy mają historię dłuższą niż 7 dni (w definicji)
  select itemid, name, key_ from items where history > 7;

Liczba itemow w tysiacach
  select count(cnt), cnt from (select round(count(itemid)/1000) cnt 
  from history_uint group by itemid) a group by cnt;


Operacje na datach w tabelkach z historią

Data w formacie unix
  FROM_UNIXTIME()

  select FROM_UNIXTIME(clock) from history order by itemid desc limit 10;

Godzina (data) o 7 dni wcześniej
  date_sub(current_timestamp, interval 7 day) 

Konwersja na date w formacie unix timestamp
  UNIX_TIMESTAMP()

  select UNIX_TIMESTAMP(date_sub(current_timestamp, interval 7 day));

Sprawdzenie ile jest rekordów historii starszej niż 3 dni
  select count(*) from history where
  clock<UNIX_TIMESTAMP(date_sub(current_timestamp, interval 3 day));

  select count(*) from history_uint where
  clock<UNIX_TIMESTAMP(date_sub(current_timestamp, interval 3 day));

Indexy

Sprawdzenie indexow dla tabelki
  SHOW INDEX FROM history_uint;

Opis tabel

Niektóre rzeczy dobrze mieć pod ręką.
Database tables for history/trends and theirs item type:

  • history – numeric (float)
  • history_uint – numeric (unsigned integers)
  • history_str – character (up to 255 bytes)
  • history_log – log
  • history_text – text
  • trends – numeric (float)
  • trends_uint – numeric (unsigned integers)

Notatnik

Parsowanie zapytania
  QueryHandler .handleQuery
  JMXHelper

Linki

http://zabbixzone.com/zabbix/history-and-trends/http://zabbixzone.com/zabbix/partitioning-tables/

sobota, 25 stycznia 2014

Zabbix - daje radę

Trudne początki

Zaczęło się pozornie kiepsko. Może nie było by specjalnie o czym pisać. Ale tego co monitoruję nazbierało się sporo, dlatego myślę że warto to pokazać. Z oczywistych przyczyn musiałem poddać dane anonimizacji. Większość z tych rzeczy udało się spreparować podczas rozwijania aplikacji Kamsoft.

To było dość dawno... Oczywiście sobie nie przypomnę kiedy, ale sporo czasu już minęło.
Pogadanka u szefa jak to zwykle. Podobno ktoś tam używa Zabbix. I podobno monitoruje system. W czasach gdy ja miałem opanowane robienie wykresów RRD z poziomu Cacti, gdzie wcale nie trzeba było bazy i jedyną zajętość jaką generowało Cacti to były pliki RRD. Zadawałem sobie pytanie po co to w ogóle taka kobyła. Dodam że zacząłem się cieszyć moją nowinką skryptową perl-a i RRD. Udało mi się zrobić właśnie nowy wykres do Cacti który potrafił na wykresie zobrazować różne rodzaje requestów do naszego systemu w skali czasu. Ilość requestów znaczyłem kolorami. Oś X to czas. Oś Y to typy Requestów (ze względu na rodzaj operacji) było tego z 1000. Oj było na co popatrzeć. Widać było coś na kształt (tylko przykład) nie mam oryginalnego wykresu. Był wielki i życie zweryfikowało jego użyteczność - poszedł do kosza. Mało co z tego dało się niestety wywnioskować. Widmo dość losowe. A trzeba było znaleźć przyczynę i źródło wycieku pamięci. Oj niestety w Javie też tak się da.

Jakoś zawsze miałem sentyment do skryptów, których nie trzeba kompilować i na potrzeby uruchomienia jednego zadania wszystko działa od razu bez całej tej kompilacji (ech ta Java) nawet przy dużych projektach. Wiadomo że nie wszystko złoto co się świeci - teraz to wiem.

Szukanie przyczyny to był jakiś katalizator do poszukiwań jakiegoś narzędzia do diagnostyki takich problemów. Wtedy nasz system był znacznie mniejszy. Raptem 2 workery Tomcat-a. Ale mimo to przychodziły takie momenty, że to klękało. Wtedy zaczynało się szukanie i nerwówka.

Zabbix-a zainstalowałem ale mnie nie przekonał.
Jedyne czego zazdrościłem wtedy to scrollowania czasu. Teraz uważam że to chyba najgorsze co ma Zabbix. Na ten czas nie byłem tego w stanie ogarnąć. Wyglądało jakby to samo potrafiło znajdować to co ma diagnozować. Znalazło Linux-y i tyle. Wtedy w Cacti potrafiłem znacznie więcej.

Odstawiłem to na półkę i zostałem przy Cacti.

Szef wie co chce i dąży do celu, jak się na coś zaweźmie. Tak jak to bywa w większej firmie - temat dostał ktoś inny. Oj wcale się nie zdziwiłem. Marketing-owo podobno poszedł krok dalej. Ale jak popatrzyłem to, stanął tam gdzie ja. 

Prostsze będzie lepsze

Było by dobrze z Cacti - ale tylko u mnie. Na innych instalacjach już nie było tak kolorowo. Monitorowałem swój system (testowy) a produkcja była już poza moim zasięgiem. Jeden miał tak inny inaczej. Nasz system zaczął się rozrastać i nawet na testowym systemie zaczęło się robić ciasno i wolno. Przed oczami przewinął mi się wtedy wykres diagnostyki dysku z Linux-a (iostat). Niby tylko tak prosty xml do importu do zabbix. Jak sobie pomyślałem, że trzeba by to od zera dziargać w perl-u coś dla Cacti trochę mnie lenistwo ogarnęło. To był jakiś przełom w Zabbix. Wykresy się pojawiły w Zabbix. To była dobra wróżba. To się da sprzedać dla innych administratorów. I tak właśnie zostały pogrzebane moje argumenty lekkości. Nadal ciągle próbuję znaleźć równowagę pomiędzy kodowaniem w jakimś sensownym języku a definiowaniem w xml-u. Kto robił grubsze skrypty w ant wie co to znaczy.

Jeden z pierwszych wykresów Zabbix iostat który mnie przekonał o tym że to się da używać.

Hosty

To jest właśnie ciekawe, że skomplikowanie powoduje uproszczenie. Takie wrażenie na mnie wywarła wizja hostów. Takim hostem może być np Tomcat, ESB, Agent. I to jest właśnie pomylenie. Naturalnie bym tak nie pomyślał. Wielu którzy się zetknęli z Zabbix tak pomyśli. Pewnie da się to przerobić tak aby host który obrazuje System (np Linux) posiadał dodatkowe itemy odpowiedzialne za monitorowanie poszczególnych usług. Tomcat przecież można uważać jako usługę. Pewnie podpinając go przez JMX tak by było. Lepiej tego nie robić tak. Moje doświadczenia z JMX są negatywne jeżeli chodzi o komunikację po sieci. JMX potrzebuje dużego zakresów portów, a to czasem nie jest proste do osiągnięcia.

Duży system i wirtualizacja

Tu się pojawił dopiero skok. Łatwo było kogoś przekonać: wiesz tu jest wirtualka. Sciągasz i masz. Ale zanim się to zaczęło sam u siebie tak zrobiłem. Przeniosłem się z docelowej maszyny na wirtualki. Ciekawe zdarzenie miałem miejsce śledzić. Coś na wirtualkach zaczeło zjadać procki na operacjach IO. Rzut oka na główna maszynę, która hostuje VMware i co okazuje się, że na głównej też coś zjada tak proca.
Okazało się że kolega kopiował obraz - niestety na wirtualkach to się odbija jak cień na całym systemie.
Można się nieźle pomylić jak się nie ma obrazu całości a tylko fragment. A już chciałem badać moje aplikacje...

Co by tu jeszcze zmonitorować?

Lepiej nie przesadzać z monitorowaniem to jakoś zawsze wiedziałem. 
Potrafię jednak wpiąć się w różne ciekawe miejsca. 
W najbliższym czasie spróbuje pokazać inne obrazki.
Obrazki to nie jest jedyna dobra rzecz tego systemu. Dobrze zestrojony może alertować o tym że coś się złego święci. Nie należy jednak tego traktować jako złoty środek. Zwykle już jest ciepło jak Zabbix się odzywa. 

Na dziś można rysować ze wszystkiego co daje dostęp przez JMX, SNMP korzystając z normalnego agent-a. Przez traper dowolne skrypty wsadowe.

Źródła

Kod i skrypty można pobrać z https://code.google.com/p/zabbix-extension/.

Linux

Monitorowanie systemu linux w podstawowym zakresie działa całkiem dobrze. Zabbix Agent dla systemu linux exportuje podstawowe intem-y i działają one całkiem dobrze. 
Tego tematu nie zamierzam tu poruszać. Skupię się więc na tych rzeczach, które są nietypowe. 
Większość statystyk które chcemy możemy znaleźć jako opis na stronie zabbix-a, ale akturat takiej nie znalazłem. 
Dużo danych można dodać do systemu przez dodanie dodatkowych UserParams do zabbix agenta.
Zazwyczaj sprowadza się to do podania skryptu który należy uruchomić aby zwrócił określone dane na ż żądanie dostarczenia przez agenta jakiegoś item-a. 
Takie rozwiązanie jest dobre, ale tylko wtedy gdy pobranie gdy skrypt wykonuje się szybko, lub itemy pytane są wyjątkowo rzadko.
Przy odpytywaniu np 1 na minutę kilku, lub kilkunastu itemów zaczniemy mieć problemy.
Dlatego większość optymalizacji które się pojawią sprowadzają się do cachowania pewnych danych, a potem zwracania ich z tego cache na żądanie. 

Netstat

Jednym z takich przykładów jest napisany dla wprawki w perlu netstat.
Statystyka okazała się całkiem przydatna do sprawdzenia i tuningu konfiguracji Apache httpd.

Przykład statystyki netstat dla serwera z uruchomionym Apache httpd. Widać różnicę po zmianie.
Przy poprzedniej konfiguracji nie wyrabiały routery.
Rozszerzenie składa się z:

  • skryptu w pythonie które pobierają dane z netstat-a i cachują w pliku
  • skryptu w pythonie który pobiera item-a z cache (plik)
  • wpisu do cron-a który uruchamia co minute aktualizację cache
  • aktualizacji UserParams dla zabbix agent-a
  • definicji itemów wykresów dla zabbix



Tomcat

Główne obrazki którymi się ludzie cieszą to pamięć i requesty. Wiadomo to się przydaje. To oczywiście też mam w swoim repertuarze.
Trochę nietypowe połączenie. Korelacja czasu przetwarzania i liczba requestów to ważny wskaźnik
w systemie o w miarę stałej wartości czasu odpowiedzi. 
Osobiście nie badam zbyt często. To obciąża system. Wartości które dobrałem to kompromis. Tu są liczniki do badania, więc nic nie ginie, może zostać tylko scałkowane (efekt filtra dolnoprzepustowego). Nie chcę w tym wypadku bawić się w wyciąganie wniosków z tego co jest namalowane. Okazuje się, że aby coś sensownego zobaczyć trzeba przejrzeć kilka punktów.

Liczba sesji jest ważna ponieważ to alokuje pamięć serwera.
Gdy nie zdążysz zareagować na wyciek pamięci wszystkie statystyki idą do piachu. Wiesz tylko że to się zaczęło mniej więcej o godzinie X.

Alokacja pamięci powyżej zadeklarowanej kończy się ogólna klęską. Wykresy też przestają wtedy działać.
Gdy brakowało informacji z bazy danych, jedną z możliwości sprawdzania liczby połączeń do bazy była analiza póli połączeń. Tu też mogą się pojawić problemy jak coś się nie pozamyka (szczególnie z winy developera).
Jedna z pól połączeń do bazy

Apache httpd

Pierwszy punkt styku klienta i aplikacji webowej to serwer WWW. Oczywiście można sobie wyobrazić różne rozwiązania z balancingiem niemniej jednak, to choć stare to jest nadal dość powszechne.

Kody odpowiedzi na minutę. Dość ważne z punktu widzenia detekcji
błędów raportowanych do klientów (szczególnie 503)
Typy requestów na minutę
Balancing przekazuje sterowanie do workerów, można to traktować jak kolejkę.
Na tym wykresie ładnie będzie widać jak coś zwolni przetwarzanie.

WSO2 - ESB

Przez magistralę przelatuje mnóstwo danych. Czasem dzieją się tam dziwne rzeczy. Niektóre można zaobserwować na liczbie połączeń, oraz na wyłączaniu serwisów. Wiadomo jak tu coś klęknie to klapa na max-a.

Jeden z parametrów ESB
Liczba połączeń do ESB (przychodzące i wychodzące)

iSeries DB2

Po uruchomieniu interface SNMP wydawało się że to jest właśnie dobre miejsce do badania parametrów DB2. Baza informacji SNMP była wystarczająca, CPU, Pamięć, trochę zamotane netstat którego nie wiedziałem jak ugryźć. Moje poszukiwania po interface SNMP nie przyniosły oczekiwanego rezultatu.

CPU niby nic szczególnego ale bez tego jak bez ręki
Liczba procesów jest ważna ponieważ jest to związane z liczbą połączeń do bazy.
Niestety połączenia to nie jedyne procesy i trochę trudno na podstawie tego powiedzieć co.
Z analizy puli pamięci ciężko coś wnioskować. Może kiedyś z tego zrobię jakiś doktorat, ale na dziś jest ta informacja jest nieużyta.
Po dłuższej zabawie w pythonie wyłuskałem z SNMP te wiadomości nestat które są dla mnie coś warte i pokazują liczbę połączeń z określonych maszyn.

Połączenia do iSeries DB2 z 4 maszyn klastra. Gdy wszystko jest ok to obciążenie się rozkłada równo.
Warto widzieć ile połączeń jest ogólnie. Jak wiadomo różne sterowniki pracują na różnych portach. Dobrze by mieć jeszcze jakiś rozdział na określone porty.

Tak jak powiedziałem - chciałem coś więcej. Jedno z miejsc gdzie takie statystyki znalazłem jako pudełkowe to był Mysql. Właśnie ta statystyka mnie zainspirowała do tego, aby do bazy iSeries DB2 spróbować poszukać podobnego rozwiązania. Na razie nie znalazłem tego jako gotowy kawałek, jednak znalazłem narzędzia w iSeries, które pomogły coś takiego uzyskać. Znaczenie więcej dostaje się z tabelek systemowych. Oto przykłady:
Otwarcie i zamknięcie obiektów
Statystyka operacji zmiany ze względu na rodzaj
Rodzaje operacji odczytu

Każdy z tych wykresów był kluczowy podczas analizy optymalności pracy aplikacji, szczególnie pod dużym obciążeniem. Patrząc na system jako czarna skrzynka, te parametry to kluczowe wyznaczniki złożoności operacji. Można to skorelować z operacjami logicznymi systemu. Z odczytów możemy odczytać czy zapytania są wykonane optymalnie. Zbyt duże wartości odczytów w najbardziej trywialnym przypadku może oznaczać brak index-ów. Można być też przyczyną nieoptymalnej implementacji procedur na bazie.
Trochę więcej można się dowiedzieć analizując w krótkich okresach czasu wybrane obiekty.
Na temat samych procesów można też się co nieco dowiedzieć.
Typy job-ów z iSeries
Wielkość kolejki komunikatów dla zadań określonego typu.

Openfire

Po dłuższym okresie użytkowania aplikacji Openfire, okazało się że serwer na którym jest uruchomiona miewa mocne zadyszki i na maszynie wirtualnej powoduje zamięszanie. To był więc opiszę więc moją przygodę z openfire .jeden z motywów aby podłączyć tę aplikację do monitorowania wydajności. Okazało się że sam monitor jmx java niewiele mówi, a mechanizmy, które są dostępne nie pokazują tego co chciałem. Na tyle dużo się tego zrobiło że postanowiłem z tego zrobić oddzielny rozdział pod tytułem Zabbix - Openfire monitoring

Raporty z aplikacji

Po jakimś czasie znalazłem nietypowe zastosowanie dla Zabbix. Czasem dobrze widzieć w tym samym miejscu rzeczy z systemu oraz z aplikacji. Ja wybrałem raporty przez JMX dlatego że dla mnie stworzenie interface komunikacji z Java było wyjątkowo proste. Na pierwszy ogień poszedł system autoryzacji.

Tokeny związane z autoryzacja w ciągu dnia.

Statusy operacji autentykacji (Operacji na minutę. Odpowiednio Z - zalogowanie, W - wylogowanie, T - blokada tymczasowa, P - hasło wygasło, O - błędne konto/hasło, E - blokada konta) 
Co ciekawe przy zasilaniu takimi danymi nawet na Zabbix da się wykryć próby łamania haseł. Mając te dane historycznie można łatwo to wyśledzić w postaci obrazków. Użyteczne a niewielkim kosztem.