mandag den 11. oktober 2010

Machine learning paa toppen af GFS paa Google

Googler Tushar Chandra gav for nylig en snak på Ladis 2010 workshop om \ "Vølvens: Et system til store machine learning \" (dias fås som PDF), som diskuterer et system, som Google har bygget til at gøre store machine learning på toppen af MapReduce og GFS.

Dette system er nok bare en af mange inde den hemmelighedsfulde søgning gigant, men vi har ikke ofte får den slags titter indeni. Hvad jeg fandt mest interessant var ærlig diskussion af de problemer, som Google-teamet støder på og hvordan de overvandt dem.

Især snakker Googlere om, hvordan de bygger oven på et system til batch log forarbejdning forårsagede visse vanskeligheder, som de overvandt ved hjælp af en masse lokale hukommelse og være forsigtig med at arrangere data og flytte data rundt. Alligevel sidste par slides nævne, hvor de holdt forårsager lokaliserede netværk og GFS mester brownouts, påvirker andet arbejde på klyngen.

Denne sidste problem synes at have været et problem igen og igen i cloud computing-systemer. Denne irriterende netværk er en knap, fælles ressource, og det tager ofte et netværk delvis mørklægning til at minde os om, at virtuelle maskiner ikke er alt det tager at få alle der spiller flot.

På et beslægtet emne, kan du se min tidligere post, \ "GFS og dens udvikling \", og dens diskussion af den smerte Google ramt, når de forsøger at sætte andre interaktive arbejdsbyrden oven på GFS. Og hvis du er interesseret i Google's arbejde her, kan du også være interesseret i open source Mahout, som er en suite af machine learning algoritmer hovedsageligt beregnet til at køre på toppen af Hadoop klynger.

Ingen kommentarer:

Send en kommentar

Bemærk! Kun medlemmer af denne blog kan sende kommentarer.