MapReduce: Forstå Rollen Som Mapper

13 år ago

★★★★★Rating: 4.72 (6071 votes)

I den stadigt voksende verden af Big Data står virksomheder og organisationer over for den udfordring at skulle behandle og analysere enorme mængder information hurtigt og effektivt. En af de tidlige og fundamentale rammer designet til netop dette formål er MapReduce. MapReduce er en programmeringsmodel og software-ramme, der muliggør parallel behandling af store datasæt på klynger af computere. Kernen i denne model ligger i dens to hovedfaser: Map-fasen og Reduce-fasen. For at forstå MapReduce er det essentielt at dykke ned i, hvad en 'mapper' er, og hvilken rolle den spiller i denne kraftfulde databehandlingsproces.

Big Data Mapping: Modern Tools for Geographic Analysis and Visualization

Indholdsfortegnelse

Hvad er MapReduce?
Hvordan Fungerer MapReduce?
Mapperens Centrale Rolle
Historien Bag MapReduce
Nøglefunktioner ved MapReduce
Overvejelser og Udfordringer
Anvendelser af MapReduce
MapReduce i Forhold til Nyere Teknologier
Ofte Stillede Spørgsmål (FAQ)

Hvad er MapReduce?

MapReduce defineres som en model for analyse af Big Data, der behandler datasæt ved hjælp af en parallel algoritme på computerklynger. Typisk kører MapReduce på Apache Hadoop-klynger eller skysystemer som Amazon Elastic MapReduce (EMR)-klynger. Denne model blev oprindeligt udviklet hos Google for at analysere deres søgeresultater, men blev hurtigt populær takket være dens evne til at opdele og behandle terabyte af data parallelt, hvilket resulterer i markant hurtigere resultater sammenlignet med traditionel sekventiel behandling.

What is MapReduce in big data with an example? — MapReduce is a Java-based, distributed execution framework within the Apache Hadoop Ecosystem. It takes away the complexity of distributed programming by exposing two processing steps that developers implement: 1) Map and 2) Reduce. In the Mapping step, data is split between parallel processing tasks.

I dagens datadrevne marked genereres enorme mængder data konstant. Udfordringen ligger i at fordøje denne enorme datamængde hurtigt og effektivt uden at miste værdifulde indsigter. MapReduce adresserer dette ved at flytte behandlingslogikken til de servere, hvor dataene allerede befinder sig, i stedet for at flytte dataene til applikationen. Dette minimerer netværkstrafik og fremskynder processen betydeligt.

Historisk set var MapReduce den primære måde at tilgå data gemt i Hadoop Distributed File System (HDFS) på. Selvom andre metoder, der bruger SQL-lignende kommandoer (som Hive og Pig), nu også bruges til at hente data fra HDFS, kører disse ofte side om side med opgaver oprettet ved hjælp af MapReduce-tilgangen.

Hvordan Fungerer MapReduce?

Et MapReduce-program kører typisk i tre faser: map-fasen, shuffle-fasen og reduce-fasen. Processen starter med inputdata, der typisk er gemt i HDFS i filer, der kan indeholde struktureret, semi-struktureret eller ustruktureret information. Disse inputdata opdeles i mindre stykker, som distribueres blandt computerne i klyngen.

Map-fasen: Mapperens Opgave

Map-fasen, udført af 'mappere' eller map-opgaver, er den første og afgørende del af MapReduce-processen. Mapperen har til opgave at behandle inputdataene. Inputdataene, der leveres til mapperen, er typisk opdelt i blokke eller 'splits'. Mapperen modtager disse inputdata, ofte linje for linje i tilfælde af tekstfiler, og behandler dem for at producere et sæt mellemliggende nøgle-værdi-par. Ideen er at omdanne de rå inputdata til et format, der er egnet til aggregering i den næste fase. Antallet af mappere, der bruges, bestemmes af Hadoop-rammen baseret på størrelsen af dataene og tilgængelig hukommelse på serverne.

For eksempel, hvis inputdata er en stor tekstfil, der indeholder mange linjer, kan hver mapper tildeles et bestemt sæt linjer fra filen. Mapperfunktionen vil så behandle disse linjer, måske tælle ord eller udtrække specifikke informationer, og udsende resultaterne som nøgle-værdi-par. Et simpelt eksempel kunne være at tælle ord i en fil. Hver mapper læser en del af filen og udsender par som (ord, 1) for hvert fundet ord. Disse mellemliggende data skrives til midlertidig lagring på de lokale diske af de 'worker' noder, hvor mapperen kører.

Shuffle-fasen

Shuffle-fasen er den mellemliggende fase mellem map og reduce. I denne fase distribueres dataene baseret på de nøgler, der er produceret af mapperne. Alle mellemliggende nøgle-værdi-par med den samme nøgle garanteres at blive sendt til den samme reducer. Hadoop-rammen håndterer al kompleksiteten ved dataoverførsel, herunder sortering og gruppering af data efter nøgle, før de sendes til reducerne. En valgfri 'combiner'-funktion (som er en lokal reducer) kan køre på hver mapper-server for yderligere at reducere datamængden, før den sendes over netværket, hvilket forbedrer ydeevnen.

What is a mapper in big data? — The task of the map or mapper is to process the input data at this level. In most cases, the input data is stored in the Hadoop file system as a file or directory (HDFS). The mapper function receives the input file line by line. The mapper processes the data and produces several little data chunks.24. aug. 2022

Reduce-fasen

Reduce-fasen udføres af 'reducers' eller reduce-opgaver. En reducer kan først starte, når alle mappere er færdige. Reduceren modtager de grupperede mellemliggende nøgle-værdi-par fra shuffle-fasen (alle værdier for en bestemt nøgle er samlet). Reducerfunktionen behandler disse grupperede data for at producere et endeligt sæt output-nøgle-værdi-par. I ordtællingseksemplet vil reduceren modtage lister over '1' for hvert ord og summere dem for at få det samlede antal for hvert unikt ord. Det endelige output fra reducerne gemmes typisk tilbage i HDFS.

Hadoop-rammen styrer hele processen, tildeler opgaver til de relevante maskiner, bekræfter deres færdiggørelse og håndterer dataoverførsel mellem noder. Meget af beregningen udføres på noder, hvor dataene er lokalt gemt, hvilket reducerer behovet for at flytte store datamængder over netværket.

Mapperens Centrale Rolle

I MapReduce-rammen er mapperen den komponent, der er ansvarlig for den indledende behandling af inputdata. Den tager store, ustrukturerede eller struktureret datablokke og omdanner dem til et struktureret format af nøgle-værdi-par. Denne omdannelse er afgørende, fordi den organiserer dataene på en måde, der muliggør parallel behandling og aggregering. Uden mapperen ville det være umuligt at opdele den enorme datamængde i håndterbare stykker og forberede dem til den efterfølgende aggregeringsfase udført af reducerne. Mapperne arbejder uafhængigt af hinanden på deres tildelte datablokke, hvilket er grundlaget for MapReduce's evne til at skalere og behandle data parallelt over tusindvis af servere.

Historien Bag MapReduce

MapReduce blev udviklet hos Google i 2004 af Jeffery Dean og Sanjay Ghemawat. Deres banebrydende paper beskrev en forenklet model for databehandling på store klynger, inspireret af 'map' og 'reduce' funktionerne fra funktionel programmering. Googles proprietære MapReduce-system kørte oprindeligt på Google File System (GFS). Konceptet blev hurtigt adopteret af Apache Hadoop-projektet og blev en fundamental del af Hadoop-økosystemet.

Den første iteration af Hadoop MapReduce brugte dæmoner som JobTracker (master node) og TaskTrackers (agent på worker nodes) til at styre jobs og ressourcer. Med udgivelsen af Hadoop 2 blev disse erstattet af ResourceManager og NodeManager, der er en del af YARN (Yet Another Resource Negotiator), hvilket forbedrede ressourceallokering og jobstyring.

Nøglefunktioner ved MapReduce

MapReduce-modellen, især i sammenhæng med Hadoop, tilbyder en række avancerede funktioner:

Meget skalerbar: MapReduce kan skaleres horisontalt ved simpelthen at tilføje flere prisbillige servere til klyngen. Dette giver mulighed for at behandle petabyte af data parallelt.
Alsidig: Rammen kan håndtere forskellige former for data, herunder struktureret, semi-struktureret og ustruktureret data fra kilder som e-mails, sociale medier og klikstrømme.
Sikker: MapReduce arver sikkerhedsmetoder fra HDFS og HBase, hvilket sikrer, at kun autentificerede brugere kan tilgå og manipulere data.
Prisbillig: Ved at køre på klynger af prisbillige 'commodity' servere reducerer MapReduce omkostningerne ved at lagre og behandle store datamængder markant sammenlignet med traditionelle systemer.
Hurtig: Ved at behandle data på de noder, hvor dataene er gemt lokalt, minimeres dataoverførsler over netværket, hvilket resulterer i hurtigere databehandling.
Baseret på en simpel programmeringsmodel: MapReduce tilbyder en relativt enkel model (Map og Reduce funktioner), som programmører kan bruge til at skabe parallelle applikationer.
Kompatibel med parallel behandling: Modellen er designet fra bunden til at opdele opgaver og udføre dem samtidigt på flere processorer eller noder.
Pålidelig: Takket være HDFS's replikeringsmekanisme (eller Erasure Coding i nyere versioner) sikres høj datatilgængelighed og fejltolerance. Hvis en node fejler, er data stadig tilgængelige fra kopier på andre noder.
Højt tilgængelig: Fejltolerancefunktionen sikrer, at data er tilgængelige, selvom noder i klyngen fejler.

Overvejelser og Udfordringer

Selvom MapReduce har været en hjørnesten i Big Data-behandling, har den også visse begrænsninger:

Stiv programmeringsparadigm: Det kan være udfordrende at udtrykke visse typer logik, især iterative processer, effektivt inden for den simple Map og Reduce struktur.
Læse/skrive-intensiv: MapReduce gemmer kun lidt data i hukommelsen og kræver hyppig læsning og skrivning til HDFS mellem faser eller mellem kædede jobs, hvilket kan skabe flaskehalse.
Java-fokuseret: Selvom det understøtter andre sprog via Hadoop Streaming, er Java det mest effektive sprog for udvikling, hvilket kan være en barriere for dataanalytikere og datavidenskabsfolk, der foretrækker sprog som Python eller SQL.
Faset ud i nyere tilbud: MapReduce erstattes gradvist af nyere, hurtigere og mere fleksible rammer som Apache Spark til mange Big Data-behandlingsopgaver.

Anvendelser af MapReduce

MapReduce har været anvendt bredt på tværs af forskellige industrier til at håndtere store datamængder. Her er nogle eksempler:

Underholdning

Platforme som Netflix bruger MapReduce til at analysere brugeres sehistorik, klik og logs for at give personlige filmanbefalinger.

Is Global Mapper free? — The Global Mapper Mobile Pro license costs $50 and is assigned to a single device. A re-authorization is only allowed if the application is deactivated on the original device.

E-handel

Virksomheder som Amazon og eBay anvender MapReduce til at analysere kundernes købsmønstre, interesser og interaktionslogs for at generere produktanbefalinger og forstå markedstrends.

Sociale Medier

Platforme som Twitter bruger MapReduce til at behandle enorme mængder tweets dagligt. Processen involverer tokenisering (opdeling i ord), filtrering af uønskede termer, tælling af ord og aggregering af tællere for analyse.

Data Warehouse

MapReduce kan bruges til at analysere store datamængder i data warehouse-systemer, selvom dataretrievial fra distribuerede noder kan være en udfordring. Det hjælper med at opbygge forretningslogik for data-indsigter.

Bedrageridetektion

Finansielle institutioner bruger MapReduce til at analysere transaktionsdata i stor skala for at identificere mønstre, der indikerer potentiel bedrageri, hvilket er vanskeligt med traditionelle metoder.

Anvendelsesområde	Eksempel på Brug af MapReduce
Underholdning	Analyse af sehistorik og logs for anbefalinger
E-handel	Analyse af købsmønstre og interaktioner for produktanbefalinger
Sociale Medier	Behandling og analyse af store mængder brugergenereret tekst (f.eks. tweets)
Data Warehouse	Analyse af store datasæt for forretningsindsigter
Bedrageridetektion	Analyse af transaktionsdata for at identificere mistænkelige mønstre

MapReduce i Forhold til Nyere Teknologier

Som nævnt er MapReduce i stigende grad blevet udfordret af nyere databehandlingsrammer. Apache Spark er et fremtrædende eksempel, der ofte tilbyder hurtigere ydeevne, især for iterative opgaver, ved at behandle data i hukommelsen i stedet for at skrive mellemliggende resultater til disk. Teknologier som Databricks Delta Engine, bygget oven på Spark, tilføjer yderligere fordele som transaktionel konsistens og optimeringer til små filer, funktioner der ikke native understøttes af MapReduce og HDFS. Selvom MapReduce stadig bruges, især i ældre systemer og visse Hadoop-native værktøjer, foretrækker mange nye Big Data-applikationer rammer, der tilbyder større fleksibilitet og hastighed.

Ofte Stillede Spørgsmål (FAQ)

Hvad er forskellen på en MapReduce mapper og en Data Mapper professionel?

En MapReduce mapper er en softwarekomponent eller en specifik opgave inden for MapReduce-rammen, der er ansvarlig for den indledende behandling og transformation af rå inputdata til mellemliggende nøgle-værdi-par. En 'Data Mapper' (eller datamapper) som profession er en person, der analyserer og flytter data mellem forskellige systemer eller databaser, ofte ved hjælp af data mapping-værktøjer eller kode, for at integrere, migrere eller transformere data. Selvom begge arbejder med at håndtere og transformere data, er den første en del af en specifik Big Data-behandlingsmodel, mens den anden er en jobfunktion.

Bruges MapReduce stadig i dag?

Ja, MapReduce bruges stadig, især i ældre systemer, der er bygget på Hadoop, og af visse Hadoop-native værktøjer som Sqoop og Pig. Dog er ny udvikling af applikationer i ren MapReduce begrænset, da mange virksomheder og udviklere er skiftet til nyere, mere fleksible og ofte hurtigere rammer som Apache Spark. Nogle cloud-udbydere tilbyder stadig MapReduce-baserede tjenester, f.eks. Amazon EMR Serverless.

Hvad er de største fordele ved MapReduce?

De største fordele inkluderer dens høje skalerbarhed, evnen til at køre på prisbillige 'commodity' servere, dens fejltolerance og pålidelighed takket være HDFS, og dens egnethed til parallel behandling af enorme datamængder.

Hvad er de største ulemper ved MapReduce?

De primære ulemper er dens stive programmeringsmodel, der kan være besværlig for visse typer opgaver (især iterative), dens intensive brug af disk-I/O mellem faser, og at den i dag ofte er langsommere end nyere in-memory behandlingsrammer.

Hvad er Hadoop HDFS?

HDFS står for Hadoop Distributed File System. Det er et distribueret filsystem designet til at gemme meget store filer på tværs af maskiner i en stor klynge. HDFS er optimeret til at understøtte store gennemløb af data og er fundamentet for MapReduce og mange andre Hadoop-baserede teknologier, da det giver den distribuerede lagring, som MapReduce behandler.

Afslutningsvis har MapReduce, med sin kernekomponent, mapperen, spillet en afgørende rolle i udviklingen af Big Data-behandling. Selvom landskabet har ændret sig med fremkomsten af nyere teknologier, forbliver principperne bag Map og Reduce fundamentale for forståelsen af distribueret databehandling i stor skala.

Kunne du lide 'MapReduce: Forstå Rollen som Mapper'? Så tag et kig på flere artikler i kategorien Læsning.